DE69909892T2

DE69909892T2 - Verfahren zum Detektieren der relativen Tiefe zweier Objekte in einer Szene ausgehend von zwei Aufnahmen aus verschiedenen Blickrichtungen

Info

Publication number: DE69909892T2
Application number: DE69909892T
Authority: DE
Inventors: Olivier Avaro; Lothar Bergen; Fernand Meyer
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 1998-05-27
Filing date: 1999-05-25
Publication date: 2004-08-05
Anticipated expiration: 2019-05-26
Also published as: EP0961227B1; EP0961227A1; FR2779257A1; JP4880807B2; DE69909892D1; FR2779257B1; JP2000048207A; US6262409B1; ES2205728T3

Description

Die Erfindung betrifft ein Verfahren zur Erkennung der relativen Tiefe zwischen Objekten in einem Bild ausgehend von zwei Bildern.
Der allgemeine Kontext der Erfindung ist das Bewerten der relativen Tiefen von Objekten in Bildern, die aus verschiedenen Aufnahmen hervorgehen, unabhängig davon, ob es sich um Bilder handelt, die zeitlich nacheinander aufgenommen sind oder um Bilder, die unter verschiedenen Winkeln aufgenommen wurden.
Das Verfahren gehört in das Feld von zahlreichen Anwendungen, die eine semantische Analyse von Bildsequenzen erfordern. Insbesondere im Multimediabereich erzeugt die steigende Menge audiovisueller Daten das Bedürfnis nach neuen Funktionalitäten wie Interaktivität und Integration von Objekten unterschiedlichster Art. Der neue Standard MPEG-4 ermöglicht es, eine Szene wie eine Zusammensetzung von Objekten darzustellen, aber er spezifiziert nicht, auf welche Art eine Analyse der Szene bewerkstelligt wird.
Herkömmliche Techniken, die in den Rahmen dieser Erfindung passen, befassen sich mit Bereichen von Überdeckungen, die in einer Bildsequenz erscheinen. Diese Techniken werden in einem Beispiel der Überdeckung im folgenden Absatz beschrieben.
1 zeigt ein Beispiel einer Situation, in der eine Überdeckung auftritt. Ein Sensor, hier durch ein Auge dargestellt, sieht zwei Objekte A und B: ein Objekt B, welches sich nach links bewegt, überdeckt ein zweites Objekt A, welches sich nach rechts bewegt.
Beim Beobachten der Bewegung, d. h., der Verschiebung der Objekte zueinander, wird man sich bewusst, dass sich in einer bestimmten Anzahl von Situationen ein Objekt an einem anderen vorbei bewegt.
Die relative Tiefe eines Objekts zu einem anderen ist die Tiefe im Hinblick auf die Sicht, welche ein Beobachter beim Folgen einer Linie, die vom Auge des Beobachters ausgeht und die Objekte der Szene durchdringt, haben kann.
Entlang dieser Achse gibt es Objekte, die sich in unterschiedlichen Ebenen befinden.
Tatsächlich soll hier nicht die Tiefe selber beurteilt werden, sondern es soll festgestellt werden, welches Objekt in Bezug zu einem anderen Objekt der Szene vorne ist. Diese Information ist für eine bestimmte Anzahl von Anwendungen notwendig, insbesondere für das Kodieren, wenn daraus eine Vorhersage der Bilder gemacht werden soll. Sie ermöglicht z. B. die Rekonstruktion des Hintergrundes eines Bildes.
Tatsächlich kann man, wenn die relative Tiefe bekannt ist, die hintere Ebene eines Bildes definieren und möglicherweise a) diese hintere Ebene neutralisieren, oder b) sie unscharf machen, oder c) sie durch eine andere ersetzen, oder d) die Information mit sehr wenig Bits komprimieren und das wesentliche der Information auf der Teil konzentrieren, der vorne ist.
Das Erkennen der relativen Tiefe zwischen Objekten hat demzufolge zur Aufgabe, ein besseres Verständnis der beobachteten Szene zu schaffen.
Durch Beobachten der Art, wie sich die Objekte bewegen, und durch Feststellen, dass sie sich hinter anderen Objekten befinden, die sich nicht bewegen oder die eine Bewegung haben, die ihnen eigen ist, kann dann der Aufbau der Szene definiert werden, ohne semantische Kenntnisse einzubringen, d. h., ohne in der Lage zu sein, die Art des Objektes zu erkennen, welches sich in der Szene befindet.
Es ist nur bekannt, dass es sich von eine Gruppe von Bestandteilen, die in Farbe und Textur homogen sind, handelt, d. h., um homogene Bereiche, die aneinander angliedert werden, da sie die gleiche Bewegung aufweisen. Die homogenen Bereiche sind in Gruppen zusammengefasst, die über ihnen eigene Bewegungen verfügen.
Durch Beobachten der Bewegungsgrenzen zwischen den verschiedenen Gruppen kann ableitet werden, dass sich Gruppe E1 lokal vor der Gruppe E2 befindet, die sich wiederum vor der Gruppe E3 befindet.
Durch Integrieren dieser Informationen über die Zeit anhand der aufeinanderfolgenden Bilder kann eine Struktur der relativen Tiefe freilegt werden.
Um die relative Tiefe der Regionen zu untersuchen, müssen dementsprechend ihre Bewegungsgrenzen erkennt werden. Im Stand der Technik werden diese Grenzen aufgrund einer Segmentierung der Bewegung ermittelt.
Es wird daran erinnert, dass die Segmentierung von Bildern eine bekannte Technik ist, die daraus besteht, eine Gruppe von Pixeln in ein Mosaikbild umzuwandeln, in der jedes zusammenhängende Teilchen des Mosaiks über eine Homogenität der Farbe oder Textur (d. h. Leuchtdichte) oder der Bewegung oder einer Kombination aus verschiedenen Kriterien verfügt. Im Fall der Segmentierung der Bewegung verfügt jedes Mosaik über eine Homogenität der Bewegung.
Um eine Verschiebung einer Grenze der Bewegung zu untersuchen, ist es notwendig, drei Bilder der Szene als Eingangsinformation zu berücksichtigen.
Tatsächlich versuchen bestehende Techniken, die Bewegungsgrenzen zu erkennen, vergleichen dann die Bewegung dieser Grenzen mit der Bewegung der angrenzenden Bereiche, um zu einem Schluss zu kommen. Um die Bewegung zu bewerten, müssen zwei aufeinanderfolgende Bilder analysiert werden, und um die Bewegung der Grenze zu bewerten, werden zwei aufeinanderfolgende Positionen der Grenze benötigt, d. h. drei zu analysierende Bilder.
Diese Technik wird nachstehend unter Bezugnahme auf 2A, 2B, 2C genauer beschrieben.
Durch Analysieren zweier aufeinanderfolgender Bilder I1, I2 einer Sequenz kann die Bewegung der Szene bewertet werden. Diese Bewegung kann dazu dienen, die Szene in Objekte A, B zu segmentieren, deren Bewegungen unabhängig sind. 2A zeigt die Bewegung der zwei Objekte A, B sowie die Segmentierung.
Diese Segmentierung der Bewegung enthält nicht genug Informationen, um die relative Tiefe der zwei Objekte abzuleiten. Das Analysieren der Bewegung eines zweiten Paars von Bildern I₂ und I₃ liefert die fehlende Information: die beiden Segmentierungen ermöglichen die Bewertung der Bewegung der Kontur (oder Grenze) zwischen den zwei Objekten.
Der Vergleich der Bewegung der Kontur (Grenze) mit der Bewegung der Textur (Leuchtdichte) der zwei Seiten ermöglicht das Ableiten der relativen Tiefe: der Bereich, der die gleiche Bewegung hat wie die Kontur, entspricht dem überdeckenden Objekt. In diesem Beispiel zeigen die zwei aufeinanderfolgenden Segmentierungen der Bewegung, 2A und 2B, an, dass die Kontur sich nach links bewegt, 2C. Da die Bewegung identisch ist mit der Bewegung des rechten Bereichs, wird daraus geschlossen, dass das rechte Objekt das linke Objekt überdeckt.
In der Literatur findet man verschiedene Ansätze, die diese Tatsache untersuchen. Thomson, Mutch und Berzins (nachfolgend Ziffer D14) verwenden die Paarbildung von charakteristischen Punkten, um ein einzelnes Geschwindigkeitsfeld zu erhalten, welches die Bewegung zwischen zwei Bildern erklärt. Danach machen sie die Sprünge in diesem Geschwindigkeitsfeld ausfindig. Die Analyse der zwei Geschwindigkeitsfelder (berechnet aufgrund zweier Paare von Bildern) ermöglicht es ihnen, die relative Tiefe abzuleiten.
Ein zweiter Ansatz wird beschrieben von Darrell und Fleet (nachfolgend Ziffer D12). Dieser Ansatz segmentiert die Szene in Ebenen mit zusammenhängender Bewegung unter ausschließlicher Verwendung der Information der Bewegung. Die Entwicklung dieser Ebenen ermöglicht das Bestimmen der Bewegung der Konturen, was wiederum die Bewertung der relativen Tiefe ermöglicht.
Es wird weiter Bezug genommen auf den Stand der Technik, der von den unten aufgeführten Schriften D1-D18 gebildet wird hinsichtlich der Techniken, die beschrieben und gegenwärtig für die Aufbereitung von Bildern gebräuchlich sind:

D1: S. Beucher. Segmentation d'Images et Morphologie Mathematique, Phd thesis, E. N. S. des Mines de Paris, 1990.
D2: J. Barron, D. Fleet and S. Beauchemin. Performance of optical flow techniques. International Journal of Computer Vision, 12(1) m: 43–77, 1994.
D3: K. M. Mutch and W. B. Thompson. Analysis of accretion and deletion at boundaries in dynamic scenes. IEEE Transactions on Pattern Analysis and Machine Intelligence, 7: 133–138, 1985.
D4: E. Decenciere, C. de Fouquet and F. Meyer. Applications of kriging to image sequence coding. Accepted for publication in signal Processing : Image Communication, 1997.
D5: F. Hampel, E. Ronchetti, P. Rousseeuw, and W. Stahel. Robust Statistics – The approach Based on Influence Function. Wiley, 1986.
D6: P. Huber. Robust Statistics. John Wiley, New York, 1981.
D7: Peter Meer, Doron Mintz, Dong Yoon Kim, and Azriel Rosenfeld. Robust regression methods for computer vision. A review. International Journal of Computer Vision, 6(1): 59–70, April 1991.
D8: Nikhil R. Pal and Sankar K. Pal. A review on image segmentation techniques. Pattern Recognition, 26(9): 1277–1294, 1993.
D9: J. Y. A. Wang and E. H. Adelson. Representing moving images with layers. The IEEE Transactions on Image Processing Special Issue : Image Sequence compression, 3(5): 625–638, September 1994.
D10: G. Wolberg. Digital Image Warping. IEEE Computer Press, 1990.
D11: J. Cichosz and F. Meyer. Morphological multiscale image segmentation. In Workshop on Image Analysis for Multimedia Interactive Services (WIAMIS'97), pages 161– 166, Louvain-la-Neuve (Belgium), June 1997.
D12: Trevor Darrel and David Fleet. Second-order method for occlusion relationships in motion layers. Technical Report 314, MIT Media Lab Vismod, 1995.
D13: B. K. P. Horn and B. G. Schunck. Determining optical flow. Artificial Intelligence, 17: 185–203, 1981.
D14: W. B. Thompson, K. M. Mutch, and V. A. Berzins. Dynamic occlusion analysis in optical flow fields. IEEE Transactions on Pattern analysis and Machine Intelligence, 7: 374–383, 1985.
D 15: Zhegyou Zhang. Parameter estimation techniques : A tutorial with appplication to conic fitting. Technical Report 2676, Institut National de Recherche en Informatique et en Automatique, Sophia-Antipolis Cedex, France, October 1995.
D16: P. Chauvet. Aide Mémoire de géostatique linéaire. Ecole de Mines de Paris, 1993.
D17: Michael J. Black and Allan D. Jepson. Estimating optical flow in segmented images using variable-order parametric models with local deformations. IEEE Trans. Pattern Analysis and Machine Intelligence, 18(10): 972–986, October 1996.
D18: L. Bergen and F. Meyer. Segmentation du mouvement des objets dans une scène. In Coresa 97, 1997.

Die im vorausgegangenen Absatz beschriebenen Nachteile der Technik (Schriften D12, D14) sind die folgenden:

– Diese Techniken gründen vollständig auf der Bewegung, was eine eher ungenaue Lokalisierung der Bewegungsgrenzen mit sich bringt.
– Diese Techniken verwenden drei Bilder (zwei Segmentierungen der Bewegung) zum Bestimmen der Bewegung der Konturen; die Probleme der fehlenden Genauigkeit in der Lokalisierung der Grenzen verbreiten sich in die Bewertung der Konturen und daraus folgend in die Erkennung der Tiefe. Des weiteren bringt dies eine zusätzliche Verspätung für die Analyse mit sich.
– Des weiteren ist der Bereich der Anwendung dieser Techniken beschränkt auf Fälle, in denen die Bewegung relativ groß ist.

Ziel der Erfindung ist das Erkennen der relativen Tiefe zwischen Objekten ausgehend von zwei Bildern, welches nicht die aus dem Stand der Technik bekannten Nachteile aufweist.
Aus diesem Grund ist Gegenstand der Erfindung ein Verfahren, welches, ausgehend von zwei Bildern, die aus verschiedenen Aufnahmen einer gleichen Szene hervorgehen, in der Lage ist, die Bewegungsgrenzen sehr genau zu erkennen und für jede Grenze die relative Tiefe jeder angrenzenden Region zu bestimmen.
Nachfolgend wird unter der Bewegung eines Punktes die Verschiebung dieses Punktes verstanden, wenn er von einem Bild in ein anderes übergeht, wobei diese Bilder zwei verschiedene Aufnahmen einer Szene sind, egal ob die Aufnahmen zeitlich versetzt oder gleichzeitig, aber beispielsweise mit einem anderen Blickwinkel sind.
Die Erfindung hat demgemäss genauer als Gegenstand ein Verfahren zur Erkennung der relativen Tiefe von zwei angrenzenden gegenseitig zueinander in relativer Bewegung befindlichen Regionen in zwei Bildern, die aus verschiedenen Aufnahmen einer Szene hervorgehen, insbesondere dadurch gekennzeichnet, dass es die nachstehenden Etappen aufweist:

– eine räumliche Segmentierung von einem der Bilder, das als das Bezugsbild bezeichnet wird,
– eine lokale Bewertung der Bewegung zwischen den beiden Bildern, wovon das sich ergebende Vektorfeld als die lokale Bewegung bezeichnet wird,
– eine Bestimmung von den Fehlern der Bewertung der Bewegung entlang den Bewegungsgrenzen, und
– eine Analyse der Lokalisierung von den Fehlern der Bewertung der Bewegung entlang den Bewegungsgrenzen um festzustellen, dass sich eine Region A vor einer Region B befindet, wenn der Fehler der Bewertung der Bewegung entlang den Bewegungsgrenzen hauptsächlich an der Seite B von dieser Grenze lokalisiert ist.

Gemäss einem anderen charakteristischen Merkmal fährt man nach den zwei ersten Etappen mit einer Etappe der Fusion der Regionen fort, um Regionen mit homogener Bewegung zu erhalten.
Vorzugsweise wird die räumliche Segmentierung anhand einer morphologischen Methode ausgeführt und insbesondere anhand der Methode basierend auf der Wasserscheide.
Andere charakteristische Merkmale der vorliegenden Erfindung geben Aufschluss über verschiedene Ausführungsformen zur Bestimmung von Fehlern der Bewertung der Bewegung entlang den Bewegungsgrenzen.
Weitere Vorteile und Besonderheiten der Erfindung werden beim Lesen der Beschreibung offenbar, die zu Beispielzwecken dient und nicht begrenzend ist und in der Bezug genommen wird auf die Zeichnungsfiguren, bei welchen:
1 schematisch das Phänomen der Überdeckung aufzeigt,
2A bis 2C schematisch die Etappen der Aufbereitung von Bildern gemäß dem Stand der Technik zeigen,
3A bis 3C schematisch die Etappen der Aufbereitung von Bildern entsprechend dem erfindungsgemäßen Verfahren aufzeigen,
4 schematische Bilder darstellt, die aus den verschiedenen Etappen der Aufbereitung der Bilder gemäß dem Verfahren resultieren,
5A und 5B verschiedene Varianten der Ausführung zum Auswerten des Fehlers der Bewertung der Bewegung entlang den Bewegungsgrenzen darstellt.
Das Verfahren gemäß der Erfindung kann ausgeführt werden mittels eines Programms auf einem Mikro-Computer, welcher dazu in der Lage ist, die verschiedenen Etappen auszuführen, die nachfolgend beschrieben werden, oder durch eine zu diesem Zweck entwickelte elektronische Vorrichtung.
Der Mikro-Computer (nicht dargestellt) kann mit ein oder zwei Kameras verbunden werden, was ermöglicht, die zwei verschiedenen Aufnahmen der Szene U, W zu erhalten, die als Eingangsinformation in der Aufbereitungskette, die folgt, verwendet werden, und die in der Form von Pixelmatrizen nach Nummerisation sind.
Es kann selbstverständlich statt dessen audiovisuelles Material vorgesehen werden, welches eine Aufbereitungseinheit und vorab aufgenommene Bilder bereitstellt.
Zum besseren Verständnis des folgenden wird auf 3A–3C und 4 und 5A, 5B Bezug genommen.
3A zeigt die Aufbereitungskette.
Diese Kette umfasst zwei parallele Aufbereitungseinheiten, von denen die eine I die räumliche Segmentierung des einen der Bilder realisiert, z. B. des Bildes U, welches hiernach als Bezugsbild bezeichnet wird, und die andere II ermöglicht, eine Bewertung der Bewegung in jedem Pixel zu erhalten. Es handelt sich um eine lokale Bewertung der Bewegung zwischen den zwei Bildern U, W, von denen das sich ergebene Vektorfeld als die lokale Bewegung bezeichnet wird (4).
Man erhält als Ergebnis dieser Aufbereitung eine Partition P des Bildes ausgehend von der räumlichen Segmentierung und ein Vektorfeld V der Bewegung, welches die Bewegung jedes Bildpunkts (Pixels) ausgehend von der Bewertung der Bewegung erklärt.
In jeder Region der räumlichen Segmentierung wird ein Modell der Bewegung justiert, welches bestmöglich die allgemeine Bewegung der Region erklärt, was nachfolgend genauer beschrieben wird.
Danach wird eine Etappe der Fusion von durch die räumliche Segmentierung erhaltenen Regionen durchgeführt, welche über ähnliche Bewegungen verfügen (Etappe IIbis). Dadurch wird ermöglicht, die Bewegungsgrenzen sichtbar werden zu lassen.
Da die lokale Bewertung der Bewegung eine fehlerhafte Bewertung entlang der Bewegungsgrenze ergibt, wird danach versucht, den Fehler der Bewertung zu bestimmen, um diesen zu lokalisieren und danach die Seite der überdeckten Regionen zu kennen, da dieser Fehler nur auf der Seite der überdeckten Region erscheint (Etappe III).
Die Kenntnis über den überdeckten Bereich führt zur Erkennung der relativen Tiefe der zwei sich gegenseitig zueinander in Bewegung befindlichen Regionen (Etappe IV).
Es wird ein Kriterium benötigt, um den Fehler zu bestimmen (oder zu berechnen). Ein erstes ausgewähltes Kriterium wird "Genauigkeit der Kompensierung" genannt, ein zweites ausgewähltes Kriterium "Unterschiedlichkeit der Bewegung".
Für das Kriterium "Genauigkeit der Kompensierung" fährt man mit einer Kompensierung der Bewegung des zweiten Bildes (der Textur) fort, entlang dem Vektorfeld V, um eine Bewertung des Bezugsbildes zu erstellen, und man untersucht direkt die Aufteilung des Fehlen der Kompensierung. Man kann dann wie bei den folgenden Ausführungsformen (a, b, c) fortfahren, um herauszufinden, in welchem Streifen BFg oder BFd der Fehler am größten ist.
Für das Kriterium "Unterschiedlichkeit der Bewegung" justiert man ein Modell der Bewegung innerhalb jeder Region der Partition P ausgehend vom Vektorfeld V der Bewegung.
Entlang jeder Bewegungsgrenze wird ein Beobachtungsstreifen BF (oder gemäß einer anderen Variante zwei Streifen BFg und BFd auf beiden Seiten der Grenze) errichtet.

a) – Das regionale Modell wird mit der lokalen Bewegung verglichen, oder,
b) – ein Modell der Bewegung wird bewertet ausgehend von Feld V in dem Streifen BF, und diese Bewegung wird mit jener der angrenzenden Regionen verglichen. Die angrenzende Region, die über die Bewegung verfügt, die am ähnlichsten ist, ist die, die sich vor der anderen befindet, oder,
c) – ein Modell der Bewegung wird bewertet ausgehend vom Feld V in den zwei Streifen BFg und BFd. Die Region X, für welche die Bewertung in dem Streifen BFx und die allgemeine Bewertung in Region X am meisten übereinstimmen, ist jene, die sich vor der anderen befindet.

Nachfolgend wird jede Etappe des Verfahrens in Bezug auf die 3A–3C genauer beschrieben:

I. Die räumliche Segmentierung ermöglicht es, die Zusammensetzung des Bildes zu definieren durch in Farbe, in Textur in Graustufen homogene Regionen, unabhängig von jeder Berücksichtigung der Bewegung. Dazu ist es nicht notwendig, zwei Eingangsbilder wie im Fall der Segmentierung der Bewegung zu haben. Um sich von Problemen mit Rauschen freizumachen und um ausreichend Informationen zu haben, berücksichtigt man die Bewegung innerhalb eines Fensters. So stellt der in der Mitte des Fensters betroffene Vektor der Bewegung nicht die Bewegung in diesem Punkt, sondern die dominierende Bewegung innerhalb des Fensters dar, was eine starke Ungenauigkeit verursacht, insbesondere entlang der Bewegungsgrenzen. Die Grenzen, die man erhält, indem man die Bewegung mit Methoden gemäß dem Stand der Technik segmentiert, sind weniger genau als die Grenzen, die durch Segmentierung der Leuchtdichte oder der Farbe enthalten werden. Das hat seinen Grund darin, dass das Geschwindigkeitsfeld in allen Punkten bewertet werden muss, während die Graustufen oder die Farbe direkt in jedem Punkt gesehen werden können ohne vorherige Bewertung. Die Technik der räumlichen Segmentierung ermöglicht es beispielsweise, in der Textur homogene Regionen zu erhalten, mit sehr genauen Grenzen, ausgehend von einem Bild U. Die verwendete Methode ist vorzugsweise eine Methode der morphologischen Segmentierung und insbesondere eine Methode, welche auf dem Gradient des Bildes und der Wasserscheide (watershed transform) beruht.
II. Die Bewertung der Bewegung wird realisiert mittels einem zweiten Bild W und dem ersten Bild U. Diese Methode ermöglicht es, ein Vektorfeld der Bewegung V zu erhalten, welches die Bewegung in jedem Punkt des Bildes erklärt. Vorzugsweise wird eine klassische Differentialmethode verwendet, um diese Bewertung der Bewegung zu realisieren. Die zwei Bilder werden vorgefiltert, um die Differentiation vorzubereiten und das Bezugssignal für Rauschen zu verbessern. Da die in jedem Pixel wahrnehmbare Information der Bewegung unvollständig ist, da nur die Komponente der normalen Geschwindigkeit der Konturen der Iso-Leuchtdichte verfügbar ist, integriert man diese unvollständige Information jedes Pixels durch die Justierung eines Modells der Bewegung in jeder Region. Man kann eine polynomische Darstellung wählen. Man kann gleichermaßen eine Darstellung mit Knotenpunkten wählen. Die Wahl der Anzahl der Knotenpunkte hängt von der Komplexität der Szene ab. Eine Anzahl festgelegter Knotenpunkte wird ausgewählt abhängig von der Komplexität der Bewegung. Die Modellierung wird bewerkstelligt, indem jedem dieser Knotenpunkte die Bewegung zugewiesen wird, die, durch Interpolation, die beobachtete Bewegung in jedem Pixel am besten wiedergibt. Die Technik der Interpolation, die verwendet wird, ist eine herkömmliche Technik, die Kriging-Verfahren genannt wird (D4, D16). Die Geschwindigkeit in jedem Punkt einer Region ist eine lineare Funktion der Geschwindigkeiten in den festgelegten Knotenpunkten. Es ist bekannt, dass ein Knotenpunkt eine einfache Übertragung liefert, drei Knotenpunkte ein verfeinertes Modell liefern und mehr Knotenpunkte Modelle liefern, die immer komplexer werden.

Die Fusion der Regionen (Etappe IIbis) wird auf wiederholte Art bewerkstelligt: bei jeder Wiederholung sind alle Paare von angrenzenden Regionen Kandidaten für die Fusion. Anstatt zu versuchen, die Bewegung im Raum der Parameter zu vergleichen, wird ein neuer Satz von Parametern für jedes der Paare berechnet und es wird die Qualität der Modellierung beurteilt. Die Modellierung wird durch Auflösung eines überbestimmten linearen Systems bewerkstelligt, welches durch die von der anfänglichen robusten Bewertung abgeleiteten Wertigkeit bewertet wird.
Die unterschiedlichen Etappen der Fusion der Regionen sind die folgenden:

1. Es wird ein Kriterium der Ähnlichkeit der Bewegung festgelegt basierend auf der Qualität der Modellierung für alle Paare von Regionen (zum Beispiel einen maximalen Wert, der nicht überschritten werden kann),
2. Fusion des Paares, welches die ähnlichste Bewegung aufweist,
3. Kriterien der Ähnlichkeit für alle durch die Fusion betroffenen Regionen (das sind alle Paare von Regionen, die eine der fusionierten Regionen beinhalteten) auf den neuesten Stand bringen,
4. Wiederholung ab 2.

Die Fusion wird beendet, wenn das Kriterium der Ähnlichkeit unter einen vordefinierten Wert fällt.
Die folgende Etappe III des Verfahrens besteht dann, wie bereits beschrieben, im Bestimmen (oder Beurteilen) des Fehlers der Bewertung der Bewegung.
Nachfolgend werden mehrere Ausführungsformen vorgeschlagen, um diese Bestimmung des Fehlers der Bewertung der Bewegung durchzuführen. Die verschiedenen Ausführungsformen sind in 3B und 3C dargestellt.
Eine erste Ausführungsform beruht auf Verwendung einer Methode zur Kompensierung der Bewegung, und zwei weitere beruhen auf der Unterschiedlichkeit der Bewegung.
Die erste Ausführungsform III.1 setzt das Kriterium "Genauigkeit der Kompensierung" ein. Dazu wird der Fehler der Bewertung der Bewegung durch den Vergleich des Bezugsbilds P, d. h., des durch die räumliche Segmentierung erhaltenen Bildes, mit dem Bild erhalten, das durch den Ausgleich der Bewegung erhalten wird, um eine Bewertung des Bezugsbilds anhand des zweiten Bildes zu rekonstruieren.
Die Techniken zur Kompensierung der Bewegungen sind bekannte Techniken, es wird beispielsweise Bezug genommen auf das Buch mit der Referenznummer D10.
Gemäß einer ersten Variante der Ausführung ist die Bewegung die lokale Bewegung (III-1.1(a)) in 3B.
Gemäß einer anderen Variante der Ausführung geht die Bewegung aus einem Modell hervor, das als lokales Modell bezeichnet wird und das in einem Streifen innerhalb der lokalen Region entlang der Grenze zwischen A und B justiert ist (III.1.2b und c). In b werden zwei Streifen BFg und BFd berücksichtigt, in c wird nur ein Streifen BF berücksichtigt.
Es könnte ein einziges lokales Modell, bewertet innerhalb eines Streifens, der sich auf beiden Seiten der Grenze erstreckt, verwendet werden (III-1.2c).
Das verwendete Modell kann zum Beispiel ein polynomisches Modell sein. Es kann sich gleichermaßen um ein Modell mit Knotenpunkten handeln wie die in der Schrift D4 beschriebenen Modelle.
Gemäß einer zweiten Ausführungsform III.2, welches das Kriterium der Unterschiedlichkeit der Bewegung verwendet, wird der Fehler der Bewertung der Bewegung dadurch berechnet, dass die Bewegung, die aus einem Modell hervorgeht, das als regionales Modell bezeichnet wird und die Bewegung der Region darstellt, mit der lokalen Bewegung verglichen wird (s. 3B).
Die Berechnung des Fehlers wird vorzugsweise mittels einer robusten Bewertungstechnik durchgeführt.
Die Verwendung einer robusten Bewertungstechnik (M-Schätzfunktion) ist bekannt und eine solche Technik wird in den Schriften beschrieben, zum Beispiel in D5, D6 und D7.
Es wird jedoch daran erinnert, dass die robusten Bewertungstechniken, die auf die Bewertung der Parameter eines Modells der Bewegung angewendet werden, ermöglichen, die abweichenden Vektoren der Bewegung aufzudecken und ihren Einfluss auf die Bewertung zu eliminieren oder zu reduzieren: es werden Parameter erhalten, die einer Mehrheit der beobachteten Vektoren der Geschwindigkeit entsprechen. Die robusten Techniken liefern gleichermaßen den Fehler der Modellierung in jedem Punkt des Trägers des Modells.
Eine dritte Ausführungsform III.3, welche das Kriterium "Unterschiedlichkeit der Bewegung" verwendet, besteht aus dem Bestimmen des Fehlers der Bewertung der Bewegung, indem die Bewertungen der Bewegung verglichen werden, die von zwei verschiedenen Modellen gegeben werden:

– ein Modell, das die Bewegung der Region darstellt und das als regionales Modell bezeichnet wird,
– ein Modell, das die Bewegung eines Streifens innerhalb der lokalisierten Region entlang der Grenze zwischen A und B darstellt und das als lokales Modell bezeichnet wird.

Das regionale Modell könnte beispielsweise ein polynomisches Modell oder ein Modell mit Knotenpunkten sein. Beispiele solcher Modelle werden beispielsweise jeweils in der Schrift D17 und der Schrift D4 gegeben.
Das lokale Modell könnte zum Beispiel polynomisch oder mit Knotenpunkten sein. Gleichermaßen könnten diese Modelle beispielsweise wie jene sein, die jeweils in der Schrift D17 und der Schrift D4 offengelegt sind.
Gemäß einer Variante der Ausführung wird ein einziges lokales Modell innerhalb eines Streifens bewertet, der sich auf beiden Seiten der Grenze erstreckt.
Gemäß den beiden letzten Ausführungsformen, die beschrieben wurden, kann die Bewegung der Region durch Justierung eines Modells berechnet werden, indem die Abmessungen in Abhängigkeit von ihrem Abstand zur Grenze zwischen A und B bewertet werden (III.2.1.1 oder III.3.1.1).
Eine Möglichkeit besteht im Ausschließen der Messungen, die aus einem Streifen entlang der Grenze kommen (was einem Zuweisen von einer Wertigkeit null zu diesen Messungen während der Modellierung entspricht).
Gemäß einer anderen Variante der Ausführung hinsichtlich dieser beiden Ausführungsformen kann die Bewegung der Region berechnet werden durch Justierung eines Modells, indem eine robuste Bewertungstechnik eingesetzt wird (III.2.2.1 oder III.3.1.2).
Die Verwendung einer robusten Bewertung liegt im Tätigkeitsbereich des Durchschnittsfachmanns, die Techniken sind bekannt. Es kann zum Beispiel Bezug genommen werden auf die Schriften D5, D6 und D7, die solche Techniken beschreiben.
Im Rahmen der Ausführungsform, welche zwei Modelle verwendet, wird der Fehler der Bewertung der Bewegung berechnet, indem die Bewegung aus dem regionalen Modell und aus dem lokalen Modell in jedem Punkt des gemeinsamen Trägers verglichen wird gemäß einer ersten Variante der Ausführung (III.2.2.1 oder II.3.2.1A).
Dieser Fehler der Bewertung der Bewegung kann auch berechnet werden, indem Parameter des regionalen Modells mit Parametern des lokalen Modells verglichen werden (III.3.2.1.B). Der Vergleich der zwei Modelle im Raum der Parameter ist bekannt und für einen Durchschnittsfachmann im Rahmen dieser Ausführungsvariante leicht implementierbar. Es kann weiter hingewiesen werden auf Schrift D9, die einen solchen Vergleich beschreibt.
Gemäß einer anderen Variante der Ausführung wird der Fehler der Bewertung der Bewegung berechnet, indem das regionale Modell und das lokale Modell anhand einer gemeinsamen Modellierung verglichen werden (III.2.1.C). Eine solche Modellierung ist bekannt. Es wird auf den bereits genannten Artikel D18 hingewiesen.
Der Fehler auf Seite der überdeckten Region ermöglicht das Bestimmen der relativen Tiefe Etappe IV.
Die abweichenden Messungen, die auf der Überdeckung beruhen, sind um die Bewegungsgrenze angeordnet.
Die Summe aus allen Fehlern in den Streifen auf beiden Seiten der Bewegungsgrenzen wird gebildet. Es werden zwei Schwellenwerte t_tief und t_hoch festgelegt, um einen genauen Grad der Tiefe zu erhalten. Ein genauer Grad besteht, wenn die Summe der Fehler einer Seite (A) unterhalb von t_tief bleibt und wenn die Summe der Fehler der anderen Seite (B) oberhalb von t_hoch ist. In allen anderen Fällen kann über die Tiefe nichts gesagt werden. Der tiefe Schwellenwert lässt einen bestimmten Fehler auf der überdeckenden Seite zu und der hohe Schwellenwert zeigt den kleinsten Fehler an, der zur Bestimmung einer überdeckten Region notwendig ist.
Bei dieser Form ist die Erkennung nur für die einfachsten Fälle wirksam. Wenn zum Beispiel entlang der Kontur einer Region nur ein kleiner Teil vorhanden ist, wo die Komponente der normalen Bewegung an der Kontur nicht null ist, zeigen die Schwellenwerte an, dass es keinen genau definierten Grad gibt. Das beruht auf der Tatsache, dass der hohe Schwellenwert nicht überschritten wird.
Es wird demgemäss vorgesehen, den Streifen in kleinere Abschnitte oder Unterstreifen aufzuteilen. Es wird dann ein Auswahlverfahren angewendet: nur die Paare, die genau einen Grad der Tiefe anzeigen, tragen zur Erkennung der Tiefe bei.
Indem dann mit den Vergleichen der Summe der erhaltenen Werte für jeden der Unterstreifen mit den festgelegten Schwellenwerten fortgefahren wird, wird eine robustere Bestimmung des Grades der Tiefe verwirklicht, da nur die Unterstreifen, die den Kriterien der Schwellenwerte entsprechen, an der Bestimmung der Tiefe teilhaben.
Wie bereits beschrieben, berücksichtigt die Bewertung der lokalen Bewegung die Bewegung innerhalb eines Fensters. Wenn weiter das Fenster eine Bewegungsgrenze enthält, die durch einen starken räumlichen Gradienten markiert ist, wird die sichtbar werdende Bewegung dominiert durch die Bewegung der Grenze. Wenn jetzt ein Punkt jeder Seite der Grenze genommen wird: derjenige, der zu überdeckenden Region gehört, hat die gleiche Bewegung wie die Grenze, er wird dann richtig bewertet, während der Punkt in der überdeckten Region schlecht bewertet wird. Dadurch wird eine Asymmetrie in der Verteilung der Fehler der Bewertung der Bewegung zwischen den zwei Seiten der Bewegungsgrenzen, welche einen starken räumlichen Gradienten haben, hervorgerufen.
Das Verfahren gemäß der Erfindung zieht Nutzen aus dieser Asymmetrie, um die relative Tiefe der beiden zueinander in Bewegung befindlichen Regionen zu erkennen.
Dieser Effekt ist umso mehr sichtbar, als der Kontrast der Leuchtdichte oder Chrominanz zwischen angrenzenden Regionen stärker ist.
Außerdem ist der Effekt strikt entlang der Grenze lokalisiert. Es ist demzufolge wichtig, diesen genau zu erkennen, was die räumliche Segmentierung ermöglicht.
Schließlich benötigt das Verfahren nur zwei Eingangsbilder im Gegensatz zu den oben beschriebenen herkömmlichen Methoden. Die Bewegungsgrenzen, die berücksichtigt werden, sind eine Untergruppe der Gruppe der räumlichen Grenzen.

Claims

Verfahren zur Erkennung der relativen Tiefe von zwei angrenzenden gegenseitig zueinander in relativer Bewegung befindlichen Regionen in zwei Bildern, die aus verschiedenen Aufnahmen einer Szene hervorgehen, dadurch gekennzeichnet, dass es die nachstehenden Etappen aufweist: – eine räumliche Segmentierung von einem der Bilder, das als dsBezugsbild bezeichnet wird, – eine lokale Bewertung der Bewegung zwischen den beiden Bildern, wovon das sich ergebende Vektorfeld als die lokale Bewegung bezeichnet wird, – eine Bestimmung von den Fehlern der Bewertung der Bewegung entlang den Bewegungsgrenzen, – eine Analyse der Lokalisierung von den Fehlern der Bewertung der Bewegung entlang den Bewegungsgrenzen um festzustellen, dass sich eine Region A vor einer Region B befindet, wenn der Fehler der Bewertung der Bewegung entlang den Bewegungsgrenzen hauptsächlich an der Seite B von dieser Grenze lokalisiert ist.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Fehler der Bewertung der Bewegung durch den Vergleich des Bezugsbilds mit dem Bild erhalten wird, das durch den Ausgleich der Bewegung erhalten wird, um eine Bewertung des Bezugsbildes anhand des zweiten Bildes zu rekonstruieren.
Verfahren nach den Ansprüchen 1 und 2, dadurch gekennzeichnet, dass es sich bei der Bewegung um die lokale Bewegung handelt.
Verfahren nach den Ansprüchen 1 und 2, dadurch gekennzeichnet, dass die Bewegung aus einem Modell hervorgeht, das als lokales Modell bezeichnet wird und das in einem Streifen innerhalb der lokalen Region entlang der Grenze zwischen A und B justiert ist.
Verfahren nach den Ansprüchen 1, 2 und 4, dadurch gekennzeichnet, dass ein einziges lokales Modell innerhalb eines Streifens bewertet wird, der sich auf beiden Seiten der Grenze erstreckt.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Fehler der Bewertung der Bewegung dadurch berechnet wird, dass die Bewegung, die aus einem Modell hervorgeht, das als regionales Modell bezeichnet wird und die Bewegung der Region darstellt, mit der lokalen Bewegung verglichen wird.
Verfahren den Ansprüchen 1 und 6, dadurch gekennzeichnet, dass der Fehler der Bewertung der Bewegung anhand einer robusten Bewertungstechnik berechnet wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass in jeder Region der Fehler der Bewertung der Bewegung erhalten wird, indem die Bewertungen der Bewegung verglichen werden, die von zwei verschiedenen Modellen gegeben werden: – ein Modell, das die Bewegung der Region darstellt und das als regionales Modell bezeichnet wird, – ein Modell, das die Bewegung eines Streifens innerhalb der lokalisierten Region entlang der Grenze zwischen A und B darstellt und das als lokales Modell bezeichnet wird.
Verfahren nach den Ansprüchen 1 und 8, dadurch gekennzeichnet, dass ein einziges lokales Modell innerhalb eines Streifens bewertet wird, der sich auf beiden Seiten der Grenze erstreckt.
Verfahren nach den Ansprüchen 1 und 6, sowie 1 oder 8, dadurch gekennzeichnet, dass die Bewegung der Region durch die Justierung eines Modells berechnet wird, indem die Messungen in Abhängigkeit von ihrem Abstand zur Grenze zwischen A und B bewertet werden.
Verfahren nach den Ansprüchen 1 und 6, oder 1 und 8, dadurch gekennzeichnet, dass die Bewegung der Region durch die Justierung eines Modells berechnet wird, indem eine robuste Bewertungstechnik eingesetzt wird.
Verfahren nach den Ansprüchen 1, 8 und 9, dadurch gekennzeichnet, dass der Fehler der Bewertung der Bewegung berechnet wird, indem die Bewegung aus dem regionalen Modell und aus dem lokalen Modell in jedem Punkt des gemeinsamen Trägers verglichen wird.
Verfahren nach den Ansprüchen 1, 8 und 9, dadurch gekennzeichnet, dass der Fehler der Bewertung der Bewegung berechnet wird, indem Parameter des regionalen Modells mit Parametern des lokalen Modells verglichen werden.
Verfahren nach den Ansprüchen 1, 8 und 9, dadurch gekennzeichnet, dass der Fehler der Bewertung der Bewegung berechnet wird, indem das regionale Modell und das lokale Modell anhand einer gemeinsamen Modellierung verglichen werden.
Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die Segmentierung anhand von morphologischen Methoden ausgeführt wird.
Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass es eine Etappe zur Fusion der Regionen aufweist, die über eine ähnliche Bewegung verfügen.
Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die relative Tiefe erhalten wird, indem die Summe der Fehler einer Seite (A) von der Grenze mit einem festgelegten ersten Schwellwert verglichen wird und indem die Summe der Fehler der anderen Seite (B) der Grenze mit einem zweiten Schwellwert verglichen wird.
Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass es sich bei den beiden Bildern um Bilder handelt, die zeitlich nacheinander aufgenommen sind, und wobei die Bewegung eines Punktes die Verschiebung dieses Punktes in der Zeit darstellt, wenn von einem Bild zum anderen übergegangen wird.
Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die beiden Bilder unter verschiedenen Aufnahmewinkeln aufgenommen sind, und wobei die Bewegung eines Punktes die Verschiebung dieses Punktes in der Ebene des Bildes darstellt, wenn von einem Bild zum anderen übergegangen wird.