DE19906830A1

DE19906830A1 - Verfahren und Anordnung zum Abspeichern von mindestens einem Bild durch einen Rechner

Info

Publication number: DE19906830A1
Application number: DE19906830A
Authority: DE
Inventors: Joerg Heuer; Andre Kaup
Original assignee: Siemens Corp
Current assignee: Siemens Corp
Priority date: 1999-02-18
Filing date: 1999-02-18
Publication date: 2000-08-31
Also published as: WO2000049525A1

Abstract

Es wird ein Verfahren zum Abspeichern mindestens eines Bildes durch einen Rechner angegeben, bei dem eine relationale Information mit dem mindestens einen Bild assoziiert abgespeichert wird.

Description

Die Erfindung betrifft ein Verfahren und eine Anordnung zum Abspeichern von mindestens einem Bild durch einen Rechner. Ein Verfahren zur Bildkomprimierung mit dazugehöriger Anordnung ist bekannt aus [1]. Das bekannte Verfahren dient im MPEG-Standard als Codierverfahren und basiert im wesentlichen auf der hybriden DCT (Diskreten Cosinus Transformation) mit Bewegungskompensation. Ein ähnliches Verfahren wird für die Bildtelefonie mit n × 64 kbit/s (CCITT- Empfehlung H. 261), für die TV-Kontribution (CCR-Empfehlung 723) mit 34 bzw. 45 Mbit/s und für Multimedia-Applikationen mit 1,2 Mbit/s (ISO-MPEG-1) verwendet. Die hybride DCT besteht aus einer zeitlichen Verarbeitungsstufe, die die Verwandtschaftsbeziehungen aufeinanderfolgender Bilder ausnutzt, und einer örtlichen Verarbeitungsstufe, die die Korrelation innerhalb eines Bildes ausnutzt.

Die örtliche Verarbeitung (Intraframe-Codierung) entspricht im wesentlichen der klassischen DCT-Codierung. Das Bild wird in Blöcke von 8 × 8 Bildpunkten zerlegt, die jeweils mittels DCT in den Frequenzbereich transformiert werden. Das Ergebnis ist eine Matrix von 8 × 8 Koeffizienten, die näherungsweise die zweidimensionalen Ortsfrequenzen im transformierten Bildblock widerspiegeln. Ein Koeffizient mit Frequenz 0 (Gleichanteil) stellt einen mittleren Grauwert des Bildblocks dar.

Nach der Transformation findet eine Datenexpansion statt. Allerdings wird in natürlichen Bildvorlagen eine Konzentration der Energie um den Gleichanteil (DC-Wert) stattfinden, während die höchstfrequenten Koeffizienten meist Null sind.

In einem nächsten Schritt erfolgt eine spektrale Gewichtung der Koeffizienten, so daß die Amplitudengenauigkeit der hochfrequenten Koeffizienten verringert wird. Hierbei nützt man die Eigenschaften des menschlichen Auges aus, das hohe Ortsfrequenzen weniger genau auflöst als niedrige.

Ein zweiter Schritt der Datenreduktion erfolgt in Form einer adaptiven Quantisierung, durch die die Amplitudengenauigkeit der Koeffizienten weiter verringert wird bzw. durch die die kleinen Amplituden zu Null gesetzt werden. Das Maß der Quantisierung hängt dabei vom Füllstand des Ausgangspuffers ab: Bei leerem Puffer erfolgt eine feine Quantisierung, so daß mehr Daten erzeugt werden, während bei vollem Puffer gröber quantisiert wird, wodurch sich die Datenmenge reduziert.

Nach der Quantisierung wird der Block diagonal abgetastet ("zigzag"-Scanning), anschließend erfolgt eine Entropiecodierung, die eine weitere Datenreduktion bewirkt. Hierfür werden zwei Effekte ausgenutzt:

1. Die Statistik der Amplitudenwerte (hohe Amplitudenwerte treten seltener auf als kleine, so daß den seltenen Ereignissen lange und den häufigen Ereignissen kurze Codewörter zugeordnet werden (Variable-Length-Codierung, VLC). Auf diese Weise ergibt sich im Mittel eine geringere Datenrate als bei einer Codierung mit fester Wortlänge. Die variable Rate der VLC wird anschließend im Pufferspeicher geglättet.
2. Man nutzt die Tatsache aus, daß von einem bestimmten Wert an in den meisten Fällen nur noch Nullen folgen. Statt aller dieser Nullen überträgt man lediglich einen EOB-Code (End Of Block), was zu einem signifikanten Codiergewinn bei der Kompression der Bilddaten führt. Statt der Ausgangsrate von bspw. 512 bit sind dann nur 46 bit für diesen Block zu übertragen, was einem Kompressionsfaktor von über 11 entspricht.

Einen weiteren Kompressionsgewinn erhält man durch die zeitliche Verarbeitung (Interframe-Codierung). Zur Codierung von Differenzbildern wird weniger Datenrate benötigt als für die Originalbilder, denn die Amplitudenwerte sind weitaus geringer.

Allerdings sind die zeitlichen Differenzen nur klein, wenn auch die Bewegungen im Bild gering sind. Sind hingegen die Bewegungen im Bild groß, so entstehen große Differenzen, die wiederum schwer zu codieren sind. Aus diesem Grund wird die Bild-zu-Bild-Bewegung gemessen (Bewegungsschätzung) und vor der Differenzbildung kompensiert (Bewegungskompensation). Dabei wird die Bewegungsinformation mit der Bildinformation übertragen, wobei üblicherweise nur ein Bewegungsvektor pro Makroblock (z. B. vier 8 × 8-Bildblöcke) verwendet wird.

Noch kleinere Amplitudenwerte der Differenzbilder werden erhalten, wenn statt der verwendeten Prädiktion eine bewegungskompensierte bidirektionale Prädiktion benutzt wird.

Bei einem bewegungskompensierten Hybridcoder wird nicht das Bildsignal selbst transformiert, sondern das zeitliche Differenzsignal. Aus diesem Grund verfügt der Coder auch über eine zeitliche Rekursionsschleife, denn der Prädiktor muß den Prädiktionswert aus den Werten der bereits übertragenen (codierten) Bilder berechnen. Eine identische zeitliche Rekursionsschleife befindet sich im Decoder, so daß Coder und Decoder völlig synchronisiert sind.

Im MPEG-2-Codierverfahren gibt es hauptsächlich drei verschiedene Methoden, mit denen Bilder verarbeitet werden können:

I-Bilder: Bei den I-Bildern wird keine zeitliche Prädiktion verwendet, d. h., die Bildwerte werden direkt transformiert und codiert. I-Bilder werden verwendet, um den Decodiervorgang ohne Kenntnis der zeitlichen Vergangenheit neu beginnen zu können, bzw. um eine Resynchronisation bei Übertragungsfehlern zu erreichen.

P-Bilder: Anhand der P-Bilder wird eine zeitliche Prädiktion vorgenommen, die DCT wird auf den zeitlichen Prädiktionsfehler angewandt.

B-Bilder: Bei den B-Bildern wird der zeitliche bidirektionale Prädiktionsfehler berechnet und anschließend transformiert. Die bidirektionale Prädiktion arbeitet grundsätzlich adaptiv, d. h. es wird eine Vorwärtsprädiktion, eine Rückwärtsprädiktion oder eine Interpolation zugelassen.

Ein Bildsequenz wird bei der MPEG-2-Codierung in sog. GOPs (Group Of Pictures) eingeteilt. n Bilder von einem I-Bild zum nächsten bilden eine GOP. Der Abstand zwischen den P-Bildern wird mit m bezeichnet, wobei sich jeweils m-1 B-Bilder zwischen den P-Bildern befinden. Die MPEG-Syntax überläßt es jedoch dem Anwender, wie m und n gewählt werden. m = 1 bedeutet, daß keine B-Bilder verwendet werden, und n = 1 bedeutet, daß nur I-Bilder codiert werden.

Aus [2] ist ein Verfahren zur Bewegungsschätzung im Rahmen eines Verfahrens zur blockbasierten Bildcodierung bekannt. Dabei wird vorausgesetzt, daß ein digitalisiertes Bild Bildpunkte aufweist, die in Bildblöcken von insbesondere 8 × 8 Bildpunkten oder 16 × 16 Bildpunkten zusammengefaßt sind. Gegebenenfalls kann ein Bildblock auch mehrere Bildblöcke umfassen. Ein Beispiel hierfür stellt ein Makroblock mit 6 Bildblöcken dar, von denen 4 Bildblöcke für Helligkeitsinformation und 2 Bildblöcke für Farbinformation vorgesehen sind.

Bei einer Folge von Bildern wird für ein zu codierendes Bild unter Berücksichtigung der Bildblöcke dieses Bildes wie folgt verfahren:

- Es wird für den Bildblock, für den eine Bewegungsschätzung durchgeführt werden soll, in einem zeitlich vorhergehenden Bild, ausgehend von einem Bildblock, der sich in der gleichen relativen Position in dem vorhergehenden Bild befand (= vorangegangener Bildblock), ein Wert für ein Fehlermaß bestimmt. Dazu wird bevorzugt eine Summe über die Beträge der Differenzen von den Bildpunkten zugeordneter Codierungsinformation des Bildblocks und des vorangegangenen Bildblocks bestimmt.
Unter Codierungsinformation ist hierbei eine Helligkeitsinformation (Luminanzwert) und/oder eine Farbinformation (Chrominanzwert) zu verstehen, welche jeweils einem Bildpunkt zugeordnet ist.
- In einem Suchraum vorgebbarer Größe und Form um die Ausgangsposition in dem zeitlich vorhergehenden Bild wird jeweils für ein Gebiet derselben Größe des vorangegangenen Bildblocks, verschoben um einen oder einen halben Bildpunkt, ein Wert des Fehlermaßes bestimmt.
- In einem Suchraum der Größe n × n-Bildpunkte ergeben sich n² (Fehler-)Werte. Es wird derjenige verschobene vorangegangene Bildblock in dem zeitlich vorhergehenden Bild ermittelt, für den das Fehlermaß einen minimalen Fehlerwert ergibt. Für diesen Bildblock wird angenommen, daß dieser vorangegangene Bildblock mit dem Bildblock des zu codierenden Bildes, für den die Bewegungsschätzung durchgeführt werden soll, am besten übereinstimmt.
- Das Ergebnis der Bewegungsschätzung ist ein Bewegungsvektor, mit dem die Verschiebung zwischen dem Bildblock in dem zu codierenden Bild und dem ausgewählten Bildblock in dem zweitlich vorhergehenden Bild beschrieben wird.
- Eine Kompression der Bilddaten wird dadurch erreicht, daß der Bewegungsvektor und das Fehlersignal codiert werden.
- Insbesondere wird die Bewegungsschätzung für jeden Bildblock eines Bildes durchgeführt.

Die Anwendung der Bewegungsschätzung im Rahmen der blockbasierten oder objektbasierten Bildcodierung ist in [3] beschrieben.

In Bilddaten ist es generell - in komprimierten Bilddaten insbesondere - nahezu unmöglich, nach Inhalten zu suchen. Eine solche Suche müßte abstellen auf etwaige Objekte in den Bildsequenzen, die in beschreibender Form nicht vorliegen, sondern ausschließlich Teil des Bilddatenstroms sind.

Die Aufgabe der Erfindung besteht darin, einen Bilddatenstrom hinsichtlich der in den Bilddaten enthaltenen Informationen durchsuchbar zu machen.

Diese Aufgabe wird gemäß den Merkmalen der unabhängigen Patentansprüche gelöst. Weiterbildungen der Erfindung ergeben sich auch aus den abhängigen Ansprüchen.

Zur Lösung der Aufgabe wird ein Verfahren zum Abspeichern mindestens eines Bildes durch einen Rechner angegeben, bei dem eine relationale Information mit dem mindestens einen Bild assoziiert abgespeichert wird.

Diese relationale Information kann insbesondere zusammen mit dem mindestens einen Bild abgespeichert werden. Alternativ kann eine Referenz (Zeiger, Pointer) auf die relationale Information zusammen mit dem Bild abgespeichert werden.

Eine Weiterbildung besteht darin, daß die relationale Information vor dem Abspeichern ermittelt wird.

Auch ist es eine Weiterbildung, daß die relationale Information eine Merkmalsinformation und eine Bezugsinformation zwischen Objekten und/oder Bildern umfaßt. Die Merkmalsinformation stellt dabei z. B. Information zu einem Bewegungsmerkmal dar, durch die Bezugsinformation wird die Verknüpfung zu dem Objekt bzw. Bild, für die bzw. für das die Merkmalsinformation relevant ist, hergestellt.

Insbesondere kennzeichnet die relationale Information dabei eine Information betreffend eine vorgegebene Beziehung zwischen zwei Objekten, wobei einerseits die Information für die Art der Beziehung (Merkmalsinformation) und die an der Beziehung beteiligten Objekte (Bezugsinformation) in der relationalen Information zusammengefaßt sein können.

Hierbei sei darauf hingewiesen, daß die Assoziation der relationalen Information mit dem Bild derart realisiert sein kann, daß eine Verweisung auf die relationale Information abgespeichert wird. Es ist nicht notwendig, denselben Speicher für die Information und die Bilddaten zu verwenden. Eine Aufteilung über beliebige Speicherplätze ist möglich, bevorzugt wird eine Verknüpfungsinformation (Pointer) abgespeichert, anhand derer die tatsächliche Information auffindbar ist.

Eine Weiterbildung besteht darin, daß das mindestens eine Bild eine Sequenz von mehreren Bildern ist.

Beim Abspeichern von Bildern wird demgemäß eine zusätzliche Information, hier als relationale Information bezeichnet, bestimmt und mit dem Bildern abgespeichert. Die nachfolgend erläuterte Art der relationalen Information ermöglicht eine spätere Suche nach bestimmten Bilddaten. Die Suche findet vorzugsweise in den Daten der relationalen Information(en) statt, die Bilddaten, die bevorzugt in komprimierter Form vorliegen, müssen dabei nicht extra wiederhergestellt werden. Anhand dieser Suche auf hoher Abstraktionsebene "rotes Auto fährt von links nach rechts durch das Bild", können gezielt bestimmte Bilder, hier das rote Auto, gefunden werden. Eine derartige Suchmöglichkeit in (insbesondere komprimierten) Bilddaten existierte bislang nicht.

Eine Bildkompression kann insbesondere nach einem Bildkompressionsstandard, z. B. einem MPEG- oder einem H.26x- Standard, erfolgen.

Eine Weiterbildung besteht darin, daß die relationale Information mindestens eine der folgenden Möglichkeiten umfaßt:

a) Bewegungsinformation

Wie in [2] ausgeführt ist, kann aus Bilddaten automatisch Bewegungsinformation (insbesondere zwischen Objekten) bestimmt werden. Ab MPEG-4 sind Objekte in einem Bild identifizierbar, das Bild selbst ist hierarchisch (vergleichbar einer Baumstruktur) aufgebaut. Die hierarchischen Beziehungen der Objekte zueinander kann um eine Bewegungsinformation zwischen den jeweiligen Objekten ergänzt werden. Diese Bewegungsinformation kennzeichnet die relative Bewegung der verbundenen Objekte. Dabei ergibt sich die Gesamtbewegung (relativ und absolut) aller in dem Bild existierender und relevanter Objekte durch den vollständigen hierarchischen Aufbau. Der hierarchische Aufbau des Bildes (oder der Szene) kann nach unterschiedlichen Vorgaben gegeben sein: Ein Beispiel ist eine "enthalten-in"-Relation, also die hierarchische Struktur gibt an, welche Objekte in anderen Objekten (zumindest teilweise) enthalten sind. Auch andere Beispiele einer hierarchischen Aufteilung der Szene sind möglich.

b) Abstandsinformation

Anstelle bzw. zusätzlich zu der Bewegungsinformation kann die Abstandsinformation zwischen Objekten bestimmt und abgespeichert werden. Der Abstand kann beispielsweise anhand einer Randbegrenzung oder eines Schwerpunktes eines Objekts bestimmt werden. Anhand der Abstände zwischen den mehreren Objekten der Szene ist dieselbe vollständig beschrieben.

c) Überlappungsinformation

Mit der Überlappungsinformation wird als relationale Information die Art bzw. der Grad der Überlappung zwischen Objekten erfaßt. Die Summe der Überlappungen ergibt die Anordnung der Objekte innerhalb der Szene.

d) Information bezüglich einer Beziehung zwischen Objekten und/oder Bildern

Allgemein kann jede Beziehung zwischen Objekten und/oder Bildern als relationale Information genutzt werden. Die oben beschriebene hierarchische Anordnung der Objekte einer Szene kann entsprechend der gewählten Beziehung erfolgen.

Insbesondere bei der Bewegungsinformation können die folgenden Parameter erfaßt werden: Translation (entlang der Koordinatenachse(n)), Rotation und Zoom (Vergrößerung/Ver kleinerung) des Objekts.

Ferner kann als relationale Information auch eine Transformationsinformation über der Zeit dienen. In so einem Fall werden bevorzugt Objekte/Bilder über eine vorgegebene Zeitdauer transformiert, wobei die Transformation Werte ergibt, die Mittelwerte der Bewegung über der Zeit liefert. Einen solchen Mittelwert erhält man bspw. mittels Diskreter Cosinus-Transformation (DCT).

Hierbei sei ausdrücklich angemerkt, daß die relationale Information insbesondere zwischen jeweils zwei Bildern oder zwischen jeweils zwei Objekten eines Bildes unter Berücksichtigung der Veränderung der relationalen Information über der Zeit (z. B. Bewegungsinformation) ermittelt werden kann.

Wie oben bereits angeführt wurde, kann ein Bild bzw. eine Szene eine Vielzahl von Objekten umfassen, die miteinander in Verbindung stehen und deren Position sich über der Zeit unterschiedlich verändert. Die relationale Information kann zwischen zwei Objekten entsprechend ihrer hierarchischen Anordnung bestimmt werden. Alternativ kann die relationale Information auch anhand absoluter Information (z. B. absoluter Koordinaten innerhalb des Bildes) bestimmt werden. Aus der absoluten Information geht die Information der Objekte zueinander hervor und umgekehrt.

In einer Ausgestaltung wird die relationale Information zu einem Merkmalssatz nach einem Bildkompressionsverfahren hinzugefügt. Das Bildkompressionsverfahren ist dabei insbesondere standardisiert. Beispiele stellen ein MPEG- Standard oder ein H.26x-Standard dar.

Das beschriebene Verfahren kann bevorzugt eingesetzt werden im Rahmen des Encoding nach einem Bildkompressionsverfahren.

Eine Weiterbildung besteht darin, daß auf Bilddaten, die nach dem beschriebenen Verfahren abgespeichert wurden, selektiv zugegriffen werden kann, indem mittels geeigneter Suchmechanismen die relationale Information umgesetzt wird. Z. B. kann die Bewegungsinformation zwischen Objekten, die in dem Merkmalssatz abgespeichert ist, gezielt gesucht und gefunden werden. Die eingangs erwähnte Suche nach dem roten Auto, das sich von links nach rechts durch ein Bild bewegt, ist dadurch möglich.

Es sei darauf hingewiesen, daß die Suche selbst anhand unterschiedlicher Funktionalität die mit dem Verfahren beschriebenen relationalen Informationen nutzen kann. So ist eine "intelligente" Auswertung der unterschiedlichen Information innerhalb einer anwendungsspezifisch definierten Suche möglich. Allein die relationale Information ermöglicht die Suche in Bilddaten, die ansonsten keinerleich suchbaren Merkmale aufweisen.

Auch wird zur Lösung der Aufgabe eine Anordnung zum Abspeichern von mindestens einem Bild angegeben, bei der eine Prozessoreinheit vorgesehen ist, die derart eingerichtet ist, daß eine relationale Information mit dem mindestens einen Bild assoziiert abspeicherbar ist.

Diese Anordnung ist insbesondere geeignet zur Durchführung des erfindungsgemäßen Verfahrens oder einer seiner vorstehend erläuterten Weiterbildungen.

Ausführungsbeispiele der Erfindung werden nachfolgend anhand der Zeichnung dargestellt und erläutert.

Es zeigen

Fig. 1 eine Szene, die hierarchisch in drei Objekte unterteilt ist;

Fig. 2 eine Bildfolge, die eine Szene im Verlauf der Zeit darstellt;

Fig. 3 eine Möglichkeit zur Abspeicherung objektbezogener Bilddaten;

Fig. 4 eine Skizze, die einen Sender und Empfänger zur Bildkompression darstellt;

Fig. 5 eine Skizze mit einem Bildcoder und einem Bilddecoder in höherer Detaillierung;

Fig. 6 eine Prozessoreinheit;

Fig. 7 eine alternative Ausführungsform zur Abspeicherung objektbezogener Bilddaten.

In Fig. 1 ist eine hierarchische Struktur aus einem Quadrat 101, einem Rechteck 102 und einem Dreieck 103 in Form eines Baumdiagramms dargestellt. Die Verbindungen 104 und 105 zwischen Quadrat 101 und Rechteck 102 bzw. zwischen Quadrat 101 und Dreieck 103 entsprechen einer "enthalten-in"- Relation, d. h. das Quadrat 101 enthält sowohl das Rechteck 102 als auch das Dreieck 103.

Dieser Zusammenhang wird mit Hilfe von Fig. 2 veranschaulicht.

Fig. 2 umfaßt eine Szene, die über der Zeit in unterschiedlichen Ausprägungen 201, 202, 203 und 204 dargestellt ist. Die Objekte der hierarchischen Struktur von Fig. 1 sind jeweils in jeder zeitlichen Ausprägung der Szene vorhanden.

So bewegt sich das Quadrat 101 von seiner Ausgangsposition 205 nach unten links 206, weiter nach unten 207 und dann nach rechts 208. Innerhalb des Quadrats 101 bleibt das Rechteck 102 während der zeitlichen Veränderungen (angedeutet durch die Pfeile 217, 218 und 219) an unveränderter Position oben links (siehe Positionen 209, 210, 211 und 212). Das Dreieck 103 ist ebenfalls in dem Quadrat 101 enthalten und bewegt sich von einer Ausgangsposition 213 in den unterschiedlichen Zeitschritten 217 bis 219 allmählich nach oben (siehe Positionen 214, 215 und 216).

Die Relationen 104 und 105 aus Fig. 1 können somit pro Zeitschritt jeweils erweitert werden um die Bewegungsinformation der beiden verbundenen Objekte Quadrat 101 und Rechteck 102 (für die Verbindung 104) und Quadrat 101 und Dreieck 103 (für die Verbindung 105). Bevorzugt wird die relative Veränderung der Position pro Zeitschritt mittels der Parameter Translation (entlang der Koordinatenachsen), Drehung und Zoom angegeben.

Hierbei können auch Verfahren zur Bewegungsschätzung, wie einleitend erwähnt, eingesetzt werden.

Fig. 3 zeigt eine Möglichkeit zur Abspeicherung von Bilddaten, wobei insbesondere eine Unterteilung eines Bildes in Objekte, z. B. gemäß dem MPEG-4-Standard, vorgenommen wird. Dargestellt sind eine Sequenz 301 von Bilddaten für ein Objekt 1 und eine Sequenz 302 von Bilddaten für ein Objekt 2. Die relationale Information, insbesondere zu obigen Ausführungen passende Bewegungsinformation, wird pro Objekt innerhalb eines Merkmalssatzes, der sowohl intrinsische Daten 303 bzw. 305 (z. B. Form und Farbe des Objekts) als auch relationale Information 304 bzw. 306 enthält, abgespeichert.

Vorzugsweise wird die Relation auch um eine Verweisung 315 bzw. 316 (Pointer) ergänzt. Diese Verweisung stellt die Verknüpfung der hierarchisch strukturierten Objekte dar. Im Beispiel von Fig. 1 entspricht Objekt 1 dem Quadrat 101 und Objekt 2 dem Rechteck 102. Der Pfeil 316 kennzeichnet die Relation "enthält" und der Pfeil 315 kennzeichnet die Relation "enthalten in". Die Veränderung in der Position zwischen Objekt 1 und Objekt 2 ist für die Sequenzen 301 und 302 ebenfalls in den Feldern für die relationale Information 304 bzw. 306 abgespeichert.

Die objektbezogenen Daten 307 bis 310 (für Objekt 1) bzw. 311 bis 314 (für Objekt 2) bestimmen die jeweiligen Sequenzen 301 und 302. Für diese Sequenzen werden relationale Informationen bestimmt und abgespeichert, insbesondere wird jede Sequenz als eine "globale" Bewegung interpretiert. d. h. für die Gesamtheit einer Sequenz wird ein Merkmalssatz (303 und 304 bzw. 305 und 306) bestimmt und abgespeichert.

In Fig. 4 ist eine Anordnung dargestellt, die zwei Rechner und eine Kamera umfaßt, wobei Bildcodierung, Übertragung der Bilddaten und Bilddecodierung veranschaulicht werden.

Eine Kamera 1101 ist mit einem ersten Rechner 1102 über eine Leitung 1119 verbunden. Die Kamera 1101 übermittelt aufgenommene Bilder 1104 an den ersten Rechner 1102. Der erste Rechner 1102 verfügt über eine erste Prozessoreinheit 1103, die über eine Bus 1118 mit einem Bildspeicher 1105 verbunden ist. Mit der Prozessoreinheit 1103 des ersten Rechners 1102 werden die Verfahren zur Bildcodierung durchgeführt. Auf diese Art codierte Bilddaten 1106 werden von dem ersten Rechner 1102 über eine Kommunikationsverbindung 1107, vorzugsweise eine Leitung oder eine Funkstrecke, zu einem zweiten Rechner 1108 übertragen. Der zweite Rechner 1108 enthält eine zweite Prozessoreinheit 1109 die über einen Bus 1110 mit dem Bildspeicher 1111 verbunden ist. Auf der zweiten Prozessoreinheit 1109 werden Verfahren zur Bilddecodierung durchgeführt.

Sowohl der erste Rechner 1102 als auch der zweite Rechner 1108 verfügen jeweils über einen Bildschirm 1112 bzw. 1113, auf dem die Bilddaten 1104 visualisiert werden. Zur Bedienung sowohl des ersten Rechners 1102 als auch des zweiten Rechners 1108 sind jeweils Eingabeeinheiten vorgesehen, vorzugsweise eine Tastatur 1114 bzw. 1115, sowie eine Computermaus 1116 bzw. 1117.

Die Bilddaten 1104, die von der Kamera 1101 über die Leitung 1119 zu dem ersten Rechner 1102 übertragen werden, sind vorzugsweise Daten im Zeitbereich, während die Daten 1106, die von dem ersten Rechner 1102 zu dem zweiten Rechner 1108 über die Kommunikationsverbindung 1107 übertragen werden, Bilddaten im Spektralbereich sind.

Auf einem Bildschirm 1120 werden die decodierten Bilddaten dargestellt.

Fig. 5 zeigt eine Skizze einer Anordnung zur Durchführung eines blockbasierten Bildcodierverfahrens.

Ein zu codierender Videodatenstrom mit zeitlich aufeinanderfolgenden digitalisierten Bildern wird einer Bildcodierungseinheit 1201 zugeführt. Die digitalisierten Bilder sind unterteilt in Makroblöcke 1202, wobei jeder Makroblock 16 × 16 Bildpunkte hat. Der Makroblock 1202 umfaßt 4 Bildblöcke 1203, 1204, 1205 und 1206, wobei jeder Bildblock 8 × 8 Bildpunkte, denen Luminanzwerte (Helligkeitswerte) zugeordnet sind, enthält. Weiterhin umfaßt jeder Makroblock 1202 zwei Chrominanzblöcke 1207 und 1208 mit den Bildpunkten zugeordneten Chrominanzwerten (Farbinformation, Farbsättigung).

Der Block eines Bildes enthält einen Luminanzwert (= Helligkeit), einen ersten Chrominanzwert (= Farbton) und einen zweiten Chrominanzwert (= Farbsättigung). Dabei werden Luminanzwert, erster Chrominanzwert und zweiter Chrominanzwert als Farbwerte bezeichnet.

Die Bildblöcke werden einer Transformationscodierungseinheit 1209 zugeführt. Bei einer Differenzbildcodierung werden zu codierende Werte von Bildblöcken zeitlich vorangegangener Bilder von den aktuell zu codierenden Bildblöcken abgezogen, es wird nur die Differenzbildungsinformation 1210 der Transformationscodierungseinheit (Diskrete Cosinus Transformation, DCT) 1209 zugeführt. Dazu wird über eine Verbindung 1234 der aktuelle Makroblock 1202 einer Bewegungsschätzungseinheit 1229 mitgeteilt. In der Transformationscodierungseinheit 1209 werden für die zu codierenden Bildblöcke bzw. Differenzbildblöcke Spektralkoeffizienten 1211 gebildet und einer Quantisierungseinheit 1212 zugeführt. Diese Quantisierungseinheit 1212 entspricht der erfindungsgemäßen Vorrichtung zur Quantisierung.

Quantisierte Spektralkoeffizienten 1213 werden sowohl einer Scaneinheit 1214 als auch einer inversen Quantisierungseinheit 1215 in einem Rückwärtspfad zugeführt. Nach einem Scanverfahren, z. B. einem "zigzag"-Scanverfahren, wird auf den gescannten Spektralkoeffizienten 1232 eine Entropiecodierung in einer dafür vorgesehenen Entropiecodierungseinheit 1216 durchgeführt. Die entropiecodierten Spektralkoeffizienten werden als codierte Bilddaten 1217 über einen Kanal, vorzugsweise eine Leitung oder eine Funkstrecke, zu einem Decoder übertragen.

In der inversen Quantisierungseinheit 1215 erfolgt eine inverse Quantisierung der quantisierten Spektralkoeffizienten 1213. So gewonnene Spektralkoeffizienten 1218 werden einer inversen Transformationscodierungseinheit 1219 (Inverse Diskrete Cosinus Transformation, IDCT) zugeführt.

Rekonstruierte Codierungswerte (auch Differenzcodierungs werte) 1220 werden im Differenzbildmodus einen Addierer 1221 zugeführt. Der Addierer 1221 erhält ferner Codierungswerte eines Bildblocks, die sich aus einem zeitlich vorangegangenen Bild nach einer bereits durchgeführten Bewegungskompensation ergeben. Mit dem Addierer 1221 werden rekonstruierte Bildblöcke 1222 gebildet und in einem Bildspeicher 1223 abgespeichert.

Chrominanzwerte 1224 der rekonstruierten Bildblöcke 1222 werden aus dem Bildspeicher 1223 einer Bewegungskompensationseinheit 1225 zugeführt. Für Helligkeitswerte 1226 erfolgt eine Interpolation in einer dafür vorgesehenen Interpolationseinheit 1227. Anhand der Interpolation wird die Anzahl in dem jeweiligen Bildblock enthaltener Helligkeitswerte vorzugsweise verdoppelt. Alle Helligkeitswerte 1228 werden sowohl der Bewegungskompensationseinheit 1225 als auch der Bewegungsschätzungseinheit 1229 zugeführt. Die Bewegungsschätzungseinheit 1229 erhält außerdem die Bildblöcke des jeweils zu codierenden Makroblocks (16 × 16 Bildpunkte) über die Verbindung 1234. In der Bewegungsschätzungseinheit 1229 erfolgt die Bewegungsschätzung unter Berücksichtigung der interpolierten Helligkeitswerte ("Bewegungsschätzung auf Halbpixelbasis"). Vorzugsweise werden bei der Bewegungsschätzung absolute Differenzen der einzelnen Helligkeitswerte in dem aktuell zu codierenden Makroblock 1202 und dem rekonstruierten Makroblock aus dem zeitlich vorangegangenen Bild ermittelt. Das Ergebnis der Bewegungsschätzung ist ein Bewegungsvektor 1230, durch den eine örtliche Verschiebung des ausgewählten Makroblocks aus dem zeitlich vorangegangenen Bild zu dem zu codierenden Makroblock 1202 zum Ausdruck kommt.

Sowohl Helligkeitsinformation als auch Chrominanzinformation bezogen auf den durch die Bewegungsschätzungseinheit 1229 ermittelten Makroblock werden um den Bewegungsvektor 1230 verschoben und von den Codierungswerten des Makroblocks 1202 subtrahiert (siehe Datenpfad 1231).

In Fig. 6 ist eine Prozessoreinheit PRZE dargestellt. Die Prozessoreinheit PRZE umfaßt einen Prozessor CPU, einen Speicher SPE und eine Input/Output-Schnittstelle IOS, die über ein Interface IFC auf unterschiedliche Art und Weise genutzt wird: Über eine Grafikschnittstelle wird eine Ausgabe auf einem Monitor MON sichtbar und/oder auf einem Drucker PRT ausgegeben. Eine Eingabe erfolgt über eine Maus MAS oder eine Tastatur TAST. Auch verfügt die Prozessoreinheit PRZE über einen Datenbus BUS, der die Verbindung von einem Speicher MEM, dem Prozessor CPU und der Input/Output-Schnittstelle IOS gewährleistet. Weiterhin sind an den Datenbus BUS zusätzliche Komponenten anschließbar, z. B. zusätzlicher Speicher, Datenspeicher (Festplatte) oder Scanner.

Fig. 7 zeigt eine zu Fig. 3 alternative Ausführungsform zur Abspeicherung objektbezogener Bilddaten. Dargestellt sind eine Sequenz 701 von Bilddaten für das Objekt 1 und eine Sequenz 702 Bilddaten für das Objekt 2. Eine zu dem jeweiligen Objekt gehörende intrinsische Information (Form, Farbe des Objekts) 703 bzw. 704 ist jeweils mit dem Objekt 701 bzw. 702 abgespeichert. Die relationale Information 713 ist vorzugsweise gesondert von den jeweiligen Objekten 701 und 702 abgespeichert. Dabei umfaßt die relationale Information 713 eine Merkmalsinformation 714 betreffend die Verknüpfung der Objekte 701 und 702, z. B. die Bewegung des Objektes 1 relativ zu dem Objekt 2. Die Verknüpfung selbst wird hergestellt mittels der Bezugsinformation 715, 716, die bevorzugt Referenzen zu den mit der Merkmalsinformation 714 assoziierten Objekten 701 und 702 aufweist.

Die objektbezogenen Daten 705 bis 708 bzw. 704 bis 712 bestimmen jeweils eine zu dem jeweiligen Objekt gehörende Sequenz. Die Sequenz kann eine beliebige Anzahl Bilder (für das jeweilige Objekt) umfassen.

Literaturverzeichnis:
[1] J. De Lameillieure, R. Schäfer: "MPEG-2-Bildcodierung für das digitale Fernsehen", Fernseh- und Kino-Technik, 48. Jahrgang, Nr. 3/1994, Seiten 99-107.
[2] M. Bierling: "Displacement Estimation by Hierarchical Blockmatching", SPIE, Vol: 1001, Visual Communications and Image Processing '88, S. 942-951, 1988.
[3] ITU-T, International Telecommunication Union, Telecommunications Sector of ITU, Draft ITU-T Recommendation H.263, Videocoding for low bitrate communication, 2.5.96.

Claims

1. Verfahren zum Abspeichern von mindestens einem Bild durch einen Rechner, bei dem eine relationale Information mit dem mindestens einen Bild assoziiert abgespeichert wird.

2. Verfahren nach Anspruch 1, bei dem die relationale Information zu dem mindestens einen Bild ermittelt wird.

3. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die relationale Information eine Merkmalsinformation und eine Bezugsinformation zwischen Objekten und/oder Bildern umfaßt.

4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das mindestens eine Bild eine Sequenz von mehreren Bildern ist.

5. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die relationale Information mindestes eine der folgenden Möglichkeiten umfaßt:

a) Bewegungsinformation;
b) Abstandsinformation;
c) Überlappungsinformation;
d) Information bezüglich einer Beziehung zwischen Objekten und/oder Bildern.

6. Verfahren nach Anspruch 5, bei dem die Bewegungsinformation folgende Parameter umfaßt:

a) Translation,
b) Rotation,
c) Zoom.

7. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die relationale Information anhand einer Transformation über der Zeit bestimmt wird.

8. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die relationale Information zu jeweils zwei Bildern bestimmt wird.

9. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das mindestens eine Bild mindestens zwei Objekte enthält, für die die relationale Information bestimmt wird.

10. Verfahren nach Anspruch 9, bei dem die relationale Information zu jeweils zwei Objekten bestimmt wird.

11. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die relationale Information zu einem Merkmalssatz nach einem Bildkompressionsstandard hinzugefügt wird.

12. Verfahren nach Anspruch 11, bei dem der Bildkompressionsstandard ein MPEG-Standard oder ein H.26x-Standard ist.

13. Verfahren nach einem der vorhergehenden Ansprüche zum Einsatz beim Encoding nach einem Bildkompressionsverfahren.

14. Verfahren nach einem der vorhergehenden Ansprüche, bei dem anhand der mit dem mindestens einen Bild abgespeicherten relationalen Information eine Suche in den abgespeicherten Daten ermöglicht wird.

15. Anordnung zum Abspeichern von mindestens einem Bild durch einen Rechner, bei der eine Prozessoreinheit vorgesehen ist, die derart eingerichtet ist, daß eine relationale Information mit dem mindestens einen Bild assoziiert abspeicherbar ist.