DE19906830A1 - Verfahren und Anordnung zum Abspeichern von mindestens einem Bild durch einen Rechner - Google Patents
Verfahren und Anordnung zum Abspeichern von mindestens einem Bild durch einen RechnerInfo
- Publication number
- DE19906830A1 DE19906830A1 DE19906830A DE19906830A DE19906830A1 DE 19906830 A1 DE19906830 A1 DE 19906830A1 DE 19906830 A DE19906830 A DE 19906830A DE 19906830 A DE19906830 A DE 19906830A DE 19906830 A1 DE19906830 A1 DE 19906830A1
- Authority
- DE
- Germany
- Prior art keywords
- image
- information
- objects
- relational information
- relational
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
- H04N19/27—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding involving both synthetic and natural picture components, e.g. synthetic natural hybrid coding [SNHC]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7837—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
Es wird ein Verfahren zum Abspeichern mindestens eines Bildes durch einen Rechner angegeben, bei dem eine relationale Information mit dem mindestens einen Bild assoziiert abgespeichert wird.
Description
Die Erfindung betrifft ein Verfahren und eine Anordnung zum
Abspeichern von mindestens einem Bild durch einen Rechner.
Ein Verfahren zur Bildkomprimierung mit dazugehöriger
Anordnung ist bekannt aus [1]. Das bekannte Verfahren dient
im MPEG-Standard als Codierverfahren und basiert im
wesentlichen auf der hybriden DCT (Diskreten Cosinus
Transformation) mit Bewegungskompensation. Ein ähnliches
Verfahren wird für die Bildtelefonie mit n × 64 kbit/s (CCITT-
Empfehlung H. 261), für die TV-Kontribution (CCR-Empfehlung
723) mit 34 bzw. 45 Mbit/s und für Multimedia-Applikationen
mit 1,2 Mbit/s (ISO-MPEG-1) verwendet. Die hybride DCT besteht
aus einer zeitlichen Verarbeitungsstufe, die die
Verwandtschaftsbeziehungen aufeinanderfolgender Bilder
ausnutzt, und einer örtlichen Verarbeitungsstufe, die die
Korrelation innerhalb eines Bildes ausnutzt.
Die örtliche Verarbeitung (Intraframe-Codierung) entspricht
im wesentlichen der klassischen DCT-Codierung. Das Bild wird
in Blöcke von 8 × 8 Bildpunkten zerlegt, die jeweils mittels
DCT in den Frequenzbereich transformiert werden. Das Ergebnis
ist eine Matrix von 8 × 8 Koeffizienten, die näherungsweise die
zweidimensionalen Ortsfrequenzen im transformierten Bildblock
widerspiegeln. Ein Koeffizient mit Frequenz 0 (Gleichanteil)
stellt einen mittleren Grauwert des Bildblocks dar.
Nach der Transformation findet eine Datenexpansion statt.
Allerdings wird in natürlichen Bildvorlagen eine
Konzentration der Energie um den Gleichanteil (DC-Wert)
stattfinden, während die höchstfrequenten Koeffizienten meist
Null sind.
In einem nächsten Schritt erfolgt eine spektrale Gewichtung
der Koeffizienten, so daß die Amplitudengenauigkeit der
hochfrequenten Koeffizienten verringert wird. Hierbei nützt
man die Eigenschaften des menschlichen Auges aus, das hohe
Ortsfrequenzen weniger genau auflöst als niedrige.
Ein zweiter Schritt der Datenreduktion erfolgt in Form einer
adaptiven Quantisierung, durch die die Amplitudengenauigkeit
der Koeffizienten weiter verringert wird bzw. durch die die
kleinen Amplituden zu Null gesetzt werden. Das Maß der
Quantisierung hängt dabei vom Füllstand des Ausgangspuffers
ab: Bei leerem Puffer erfolgt eine feine Quantisierung, so
daß mehr Daten erzeugt werden, während bei vollem Puffer
gröber quantisiert wird, wodurch sich die Datenmenge
reduziert.
Nach der Quantisierung wird der Block diagonal abgetastet
("zigzag"-Scanning), anschließend erfolgt eine
Entropiecodierung, die eine weitere Datenreduktion bewirkt.
Hierfür werden zwei Effekte ausgenutzt:
- 1. Die Statistik der Amplitudenwerte (hohe Amplitudenwerte treten seltener auf als kleine, so daß den seltenen Ereignissen lange und den häufigen Ereignissen kurze Codewörter zugeordnet werden (Variable-Length-Codierung, VLC). Auf diese Weise ergibt sich im Mittel eine geringere Datenrate als bei einer Codierung mit fester Wortlänge. Die variable Rate der VLC wird anschließend im Pufferspeicher geglättet.
- 2. Man nutzt die Tatsache aus, daß von einem bestimmten Wert an in den meisten Fällen nur noch Nullen folgen. Statt aller dieser Nullen überträgt man lediglich einen EOB-Code (End Of Block), was zu einem signifikanten Codiergewinn bei der Kompression der Bilddaten führt. Statt der Ausgangsrate von bspw. 512 bit sind dann nur 46 bit für diesen Block zu übertragen, was einem Kompressionsfaktor von über 11 entspricht.
Einen weiteren Kompressionsgewinn erhält man durch die
zeitliche Verarbeitung (Interframe-Codierung). Zur Codierung
von Differenzbildern wird weniger Datenrate benötigt als für
die Originalbilder, denn die Amplitudenwerte sind weitaus
geringer.
Allerdings sind die zeitlichen Differenzen nur klein, wenn
auch die Bewegungen im Bild gering sind. Sind hingegen die
Bewegungen im Bild groß, so entstehen große Differenzen, die
wiederum schwer zu codieren sind. Aus diesem Grund wird die
Bild-zu-Bild-Bewegung gemessen (Bewegungsschätzung) und vor
der Differenzbildung kompensiert (Bewegungskompensation).
Dabei wird die Bewegungsinformation mit der Bildinformation
übertragen, wobei üblicherweise nur ein Bewegungsvektor pro
Makroblock (z. B. vier 8 × 8-Bildblöcke) verwendet wird.
Noch kleinere Amplitudenwerte der Differenzbilder werden
erhalten, wenn statt der verwendeten Prädiktion eine
bewegungskompensierte bidirektionale Prädiktion benutzt wird.
Bei einem bewegungskompensierten Hybridcoder wird nicht das
Bildsignal selbst transformiert, sondern das zeitliche
Differenzsignal. Aus diesem Grund verfügt der Coder auch über
eine zeitliche Rekursionsschleife, denn der Prädiktor muß den
Prädiktionswert aus den Werten der bereits übertragenen
(codierten) Bilder berechnen. Eine identische zeitliche
Rekursionsschleife befindet sich im Decoder, so daß Coder und
Decoder völlig synchronisiert sind.
Im MPEG-2-Codierverfahren gibt es hauptsächlich drei
verschiedene Methoden, mit denen Bilder verarbeitet werden
können:
I-Bilder: Bei den I-Bildern wird keine zeitliche Prädiktion
verwendet, d. h., die Bildwerte werden direkt
transformiert und codiert. I-Bilder werden
verwendet, um den Decodiervorgang ohne Kenntnis der
zeitlichen Vergangenheit neu beginnen zu können,
bzw. um eine Resynchronisation bei
Übertragungsfehlern zu erreichen.
P-Bilder: Anhand der P-Bilder wird eine zeitliche Prädiktion
vorgenommen, die DCT wird auf den zeitlichen
Prädiktionsfehler angewandt.
B-Bilder: Bei den B-Bildern wird der zeitliche bidirektionale
Prädiktionsfehler berechnet und anschließend
transformiert. Die bidirektionale Prädiktion
arbeitet grundsätzlich adaptiv, d. h. es wird eine
Vorwärtsprädiktion, eine Rückwärtsprädiktion oder
eine Interpolation zugelassen.
Ein Bildsequenz wird bei der MPEG-2-Codierung in sog. GOPs
(Group Of Pictures) eingeteilt. n Bilder von einem I-Bild zum
nächsten bilden eine GOP. Der Abstand zwischen den P-Bildern
wird mit m bezeichnet, wobei sich jeweils m-1 B-Bilder
zwischen den P-Bildern befinden. Die MPEG-Syntax überläßt es
jedoch dem Anwender, wie m und n gewählt werden. m = 1
bedeutet, daß keine B-Bilder verwendet werden, und n = 1
bedeutet, daß nur I-Bilder codiert werden.
Aus [2] ist ein Verfahren zur Bewegungsschätzung im Rahmen
eines Verfahrens zur blockbasierten Bildcodierung bekannt.
Dabei wird vorausgesetzt, daß ein digitalisiertes Bild
Bildpunkte aufweist, die in Bildblöcken von insbesondere 8 × 8
Bildpunkten oder 16 × 16 Bildpunkten zusammengefaßt sind.
Gegebenenfalls kann ein Bildblock auch mehrere Bildblöcke
umfassen. Ein Beispiel hierfür stellt ein Makroblock mit 6
Bildblöcken dar, von denen 4 Bildblöcke für
Helligkeitsinformation und 2 Bildblöcke für Farbinformation
vorgesehen sind.
Bei einer Folge von Bildern wird für ein zu codierendes Bild
unter Berücksichtigung der Bildblöcke dieses Bildes wie folgt
verfahren:
- - Es wird für den Bildblock, für den eine
Bewegungsschätzung durchgeführt werden soll, in einem
zeitlich vorhergehenden Bild, ausgehend von einem
Bildblock, der sich in der gleichen relativen
Position in dem vorhergehenden Bild befand
(= vorangegangener Bildblock), ein Wert für ein
Fehlermaß bestimmt. Dazu wird bevorzugt eine Summe
über die Beträge der Differenzen von den Bildpunkten
zugeordneter Codierungsinformation des Bildblocks und
des vorangegangenen Bildblocks bestimmt.
Unter Codierungsinformation ist hierbei eine Helligkeitsinformation (Luminanzwert) und/oder eine Farbinformation (Chrominanzwert) zu verstehen, welche jeweils einem Bildpunkt zugeordnet ist. - - In einem Suchraum vorgebbarer Größe und Form um die Ausgangsposition in dem zeitlich vorhergehenden Bild wird jeweils für ein Gebiet derselben Größe des vorangegangenen Bildblocks, verschoben um einen oder einen halben Bildpunkt, ein Wert des Fehlermaßes bestimmt.
- - In einem Suchraum der Größe n × n-Bildpunkte ergeben sich n2 (Fehler-)Werte. Es wird derjenige verschobene vorangegangene Bildblock in dem zeitlich vorhergehenden Bild ermittelt, für den das Fehlermaß einen minimalen Fehlerwert ergibt. Für diesen Bildblock wird angenommen, daß dieser vorangegangene Bildblock mit dem Bildblock des zu codierenden Bildes, für den die Bewegungsschätzung durchgeführt werden soll, am besten übereinstimmt.
- - Das Ergebnis der Bewegungsschätzung ist ein Bewegungsvektor, mit dem die Verschiebung zwischen dem Bildblock in dem zu codierenden Bild und dem ausgewählten Bildblock in dem zweitlich vorhergehenden Bild beschrieben wird.
- - Eine Kompression der Bilddaten wird dadurch erreicht, daß der Bewegungsvektor und das Fehlersignal codiert werden.
- - Insbesondere wird die Bewegungsschätzung für jeden Bildblock eines Bildes durchgeführt.
Die Anwendung der Bewegungsschätzung im Rahmen der
blockbasierten oder objektbasierten Bildcodierung ist in [3]
beschrieben.
In Bilddaten ist es generell - in komprimierten Bilddaten
insbesondere - nahezu unmöglich, nach Inhalten zu suchen.
Eine solche Suche müßte abstellen auf etwaige Objekte in den
Bildsequenzen, die in beschreibender Form nicht vorliegen,
sondern ausschließlich Teil des Bilddatenstroms sind.
Die Aufgabe der Erfindung besteht darin, einen Bilddatenstrom
hinsichtlich der in den Bilddaten enthaltenen Informationen
durchsuchbar zu machen.
Diese Aufgabe wird gemäß den Merkmalen der unabhängigen
Patentansprüche gelöst. Weiterbildungen der Erfindung ergeben
sich auch aus den abhängigen Ansprüchen.
Zur Lösung der Aufgabe wird ein Verfahren zum Abspeichern
mindestens eines Bildes durch einen Rechner angegeben, bei
dem eine relationale Information mit dem mindestens einen
Bild assoziiert abgespeichert wird.
Diese relationale Information kann insbesondere zusammen mit
dem mindestens einen Bild abgespeichert werden. Alternativ
kann eine Referenz (Zeiger, Pointer) auf die relationale
Information zusammen mit dem Bild abgespeichert werden.
Eine Weiterbildung besteht darin, daß die relationale
Information vor dem Abspeichern ermittelt wird.
Auch ist es eine Weiterbildung, daß die relationale
Information eine Merkmalsinformation und eine
Bezugsinformation zwischen Objekten und/oder Bildern umfaßt.
Die Merkmalsinformation stellt dabei z. B. Information zu
einem Bewegungsmerkmal dar, durch die Bezugsinformation wird
die Verknüpfung zu dem Objekt bzw. Bild, für die bzw. für das
die Merkmalsinformation relevant ist, hergestellt.
Insbesondere kennzeichnet die relationale Information dabei
eine Information betreffend eine vorgegebene Beziehung
zwischen zwei Objekten, wobei einerseits die Information für
die Art der Beziehung (Merkmalsinformation) und die an der
Beziehung beteiligten Objekte (Bezugsinformation) in der
relationalen Information zusammengefaßt sein können.
Hierbei sei darauf hingewiesen, daß die Assoziation der
relationalen Information mit dem Bild derart realisiert sein
kann, daß eine Verweisung auf die relationale Information
abgespeichert wird. Es ist nicht notwendig, denselben
Speicher für die Information und die Bilddaten zu verwenden.
Eine Aufteilung über beliebige Speicherplätze ist möglich,
bevorzugt wird eine Verknüpfungsinformation (Pointer)
abgespeichert, anhand derer die tatsächliche Information
auffindbar ist.
Eine Weiterbildung besteht darin, daß das mindestens eine
Bild eine Sequenz von mehreren Bildern ist.
Beim Abspeichern von Bildern wird demgemäß eine zusätzliche
Information, hier als relationale Information bezeichnet,
bestimmt und mit dem Bildern abgespeichert. Die nachfolgend
erläuterte Art der relationalen Information ermöglicht eine
spätere Suche nach bestimmten Bilddaten. Die Suche findet
vorzugsweise in den Daten der relationalen Information(en)
statt, die Bilddaten, die bevorzugt in komprimierter Form
vorliegen, müssen dabei nicht extra wiederhergestellt werden.
Anhand dieser Suche auf hoher Abstraktionsebene "rotes Auto
fährt von links nach rechts durch das Bild", können gezielt
bestimmte Bilder, hier das rote Auto, gefunden werden. Eine
derartige Suchmöglichkeit in (insbesondere komprimierten)
Bilddaten existierte bislang nicht.
Eine Bildkompression kann insbesondere nach einem
Bildkompressionsstandard, z. B. einem MPEG- oder einem H.26x-
Standard, erfolgen.
Eine Weiterbildung besteht darin, daß die relationale
Information mindestens eine der folgenden Möglichkeiten
umfaßt:
Wie in [2] ausgeführt ist, kann aus Bilddaten automatisch
Bewegungsinformation (insbesondere zwischen Objekten)
bestimmt werden. Ab MPEG-4 sind Objekte in einem Bild
identifizierbar, das Bild selbst ist hierarchisch
(vergleichbar einer Baumstruktur) aufgebaut. Die
hierarchischen Beziehungen der Objekte zueinander kann um
eine Bewegungsinformation zwischen den jeweiligen Objekten
ergänzt werden. Diese Bewegungsinformation kennzeichnet
die relative Bewegung der verbundenen Objekte. Dabei
ergibt sich die Gesamtbewegung (relativ und absolut) aller
in dem Bild existierender und relevanter Objekte durch den
vollständigen hierarchischen Aufbau. Der hierarchische
Aufbau des Bildes (oder der Szene) kann nach
unterschiedlichen Vorgaben gegeben sein: Ein Beispiel ist
eine "enthalten-in"-Relation, also die hierarchische
Struktur gibt an, welche Objekte in anderen Objekten
(zumindest teilweise) enthalten sind. Auch andere
Beispiele einer hierarchischen Aufteilung der Szene sind
möglich.
Anstelle bzw. zusätzlich zu der Bewegungsinformation kann
die Abstandsinformation zwischen Objekten bestimmt und
abgespeichert werden. Der Abstand kann beispielsweise
anhand einer Randbegrenzung oder eines Schwerpunktes eines
Objekts bestimmt werden. Anhand der Abstände zwischen den
mehreren Objekten der Szene ist dieselbe vollständig
beschrieben.
Mit der Überlappungsinformation wird als relationale
Information die Art bzw. der Grad der Überlappung zwischen
Objekten erfaßt. Die Summe der Überlappungen ergibt die
Anordnung der Objekte innerhalb der Szene.
Allgemein kann jede Beziehung zwischen Objekten und/oder
Bildern als relationale Information genutzt werden. Die
oben beschriebene hierarchische Anordnung der Objekte
einer Szene kann entsprechend der gewählten Beziehung
erfolgen.
Insbesondere bei der Bewegungsinformation können die
folgenden Parameter erfaßt werden: Translation (entlang der
Koordinatenachse(n)), Rotation und Zoom (Vergrößerung/Ver
kleinerung) des Objekts.
Ferner kann als relationale Information auch eine
Transformationsinformation über der Zeit dienen. In so einem
Fall werden bevorzugt Objekte/Bilder über eine vorgegebene
Zeitdauer transformiert, wobei die Transformation Werte
ergibt, die Mittelwerte der Bewegung über der Zeit liefert.
Einen solchen Mittelwert erhält man bspw. mittels Diskreter
Cosinus-Transformation (DCT).
Hierbei sei ausdrücklich angemerkt, daß die relationale
Information insbesondere zwischen jeweils zwei Bildern oder
zwischen jeweils zwei Objekten eines Bildes unter
Berücksichtigung der Veränderung der relationalen Information
über der Zeit (z. B. Bewegungsinformation) ermittelt werden
kann.
Wie oben bereits angeführt wurde, kann ein Bild bzw. eine
Szene eine Vielzahl von Objekten umfassen, die miteinander in
Verbindung stehen und deren Position sich über der Zeit
unterschiedlich verändert. Die relationale Information kann
zwischen zwei Objekten entsprechend ihrer hierarchischen
Anordnung bestimmt werden. Alternativ kann die relationale
Information auch anhand absoluter Information (z. B. absoluter
Koordinaten innerhalb des Bildes) bestimmt werden. Aus der
absoluten Information geht die Information der Objekte
zueinander hervor und umgekehrt.
In einer Ausgestaltung wird die relationale Information zu
einem Merkmalssatz nach einem Bildkompressionsverfahren
hinzugefügt. Das Bildkompressionsverfahren ist dabei
insbesondere standardisiert. Beispiele stellen ein MPEG-
Standard oder ein H.26x-Standard dar.
Das beschriebene Verfahren kann bevorzugt eingesetzt werden
im Rahmen des Encoding nach einem Bildkompressionsverfahren.
Eine Weiterbildung besteht darin, daß auf Bilddaten, die nach
dem beschriebenen Verfahren abgespeichert wurden, selektiv
zugegriffen werden kann, indem mittels geeigneter
Suchmechanismen die relationale Information umgesetzt wird.
Z. B. kann die Bewegungsinformation zwischen Objekten, die in
dem Merkmalssatz abgespeichert ist, gezielt gesucht und
gefunden werden. Die eingangs erwähnte Suche nach dem roten
Auto, das sich von links nach rechts durch ein Bild bewegt,
ist dadurch möglich.
Es sei darauf hingewiesen, daß die Suche selbst anhand
unterschiedlicher Funktionalität die mit dem Verfahren
beschriebenen relationalen Informationen nutzen kann. So ist
eine "intelligente" Auswertung der unterschiedlichen
Information innerhalb einer anwendungsspezifisch definierten
Suche möglich. Allein die relationale Information ermöglicht
die Suche in Bilddaten, die ansonsten keinerleich suchbaren
Merkmale aufweisen.
Auch wird zur Lösung der Aufgabe eine Anordnung zum
Abspeichern von mindestens einem Bild angegeben, bei der eine
Prozessoreinheit vorgesehen ist, die derart eingerichtet ist,
daß eine relationale Information mit dem mindestens einen
Bild assoziiert abspeicherbar ist.
Diese Anordnung ist insbesondere geeignet zur Durchführung
des erfindungsgemäßen Verfahrens oder einer seiner vorstehend
erläuterten Weiterbildungen.
Ausführungsbeispiele der Erfindung werden nachfolgend anhand
der Zeichnung dargestellt und erläutert.
Es zeigen
Fig. 1 eine Szene, die hierarchisch in drei Objekte
unterteilt ist;
Fig. 2 eine Bildfolge, die eine Szene im Verlauf der Zeit
darstellt;
Fig. 3 eine Möglichkeit zur Abspeicherung objektbezogener
Bilddaten;
Fig. 4 eine Skizze, die einen Sender und Empfänger zur
Bildkompression darstellt;
Fig. 5 eine Skizze mit einem Bildcoder und einem Bilddecoder
in höherer Detaillierung;
Fig. 6 eine Prozessoreinheit;
Fig. 7 eine alternative Ausführungsform zur Abspeicherung
objektbezogener Bilddaten.
In Fig. 1 ist eine hierarchische Struktur aus einem Quadrat
101, einem Rechteck 102 und einem Dreieck 103 in Form eines
Baumdiagramms dargestellt. Die Verbindungen 104 und 105
zwischen Quadrat 101 und Rechteck 102 bzw. zwischen Quadrat
101 und Dreieck 103 entsprechen einer "enthalten-in"-
Relation, d. h. das Quadrat 101 enthält sowohl das Rechteck
102 als auch das Dreieck 103.
Dieser Zusammenhang wird mit Hilfe von Fig. 2 veranschaulicht.
Fig. 2 umfaßt eine Szene, die über der Zeit in
unterschiedlichen Ausprägungen 201, 202, 203 und 204
dargestellt ist. Die Objekte der hierarchischen Struktur von
Fig. 1 sind jeweils in jeder zeitlichen Ausprägung der Szene
vorhanden.
So bewegt sich das Quadrat 101 von seiner Ausgangsposition
205 nach unten links 206, weiter nach unten 207 und dann nach
rechts 208. Innerhalb des Quadrats 101 bleibt das Rechteck
102 während der zeitlichen Veränderungen (angedeutet durch
die Pfeile 217, 218 und 219) an unveränderter Position oben
links (siehe Positionen 209, 210, 211 und 212). Das Dreieck
103 ist ebenfalls in dem Quadrat 101 enthalten und bewegt
sich von einer Ausgangsposition 213 in den unterschiedlichen
Zeitschritten 217 bis 219 allmählich nach oben (siehe
Positionen 214, 215 und 216).
Die Relationen 104 und 105 aus Fig. 1 können somit pro
Zeitschritt jeweils erweitert werden um die
Bewegungsinformation der beiden verbundenen Objekte Quadrat
101 und Rechteck 102 (für die Verbindung 104) und Quadrat 101
und Dreieck 103 (für die Verbindung 105). Bevorzugt wird die
relative Veränderung der Position pro Zeitschritt mittels der
Parameter Translation (entlang der Koordinatenachsen),
Drehung und Zoom angegeben.
Hierbei können auch Verfahren zur Bewegungsschätzung, wie
einleitend erwähnt, eingesetzt werden.
Fig. 3 zeigt eine Möglichkeit zur Abspeicherung von Bilddaten,
wobei insbesondere eine Unterteilung eines Bildes in Objekte,
z. B. gemäß dem MPEG-4-Standard, vorgenommen wird. Dargestellt
sind eine Sequenz 301 von Bilddaten für ein Objekt 1 und eine
Sequenz 302 von Bilddaten für ein Objekt 2. Die relationale
Information, insbesondere zu obigen Ausführungen passende
Bewegungsinformation, wird pro Objekt innerhalb eines
Merkmalssatzes, der sowohl intrinsische Daten 303 bzw. 305
(z. B. Form und Farbe des Objekts) als auch relationale
Information 304 bzw. 306 enthält, abgespeichert.
Vorzugsweise wird die Relation auch um eine Verweisung 315
bzw. 316 (Pointer) ergänzt. Diese Verweisung stellt die
Verknüpfung der hierarchisch strukturierten Objekte dar. Im
Beispiel von Fig. 1 entspricht Objekt 1 dem Quadrat 101 und
Objekt 2 dem Rechteck 102. Der Pfeil 316 kennzeichnet die
Relation "enthält" und der Pfeil 315 kennzeichnet die
Relation "enthalten in". Die Veränderung in der Position
zwischen Objekt 1 und Objekt 2 ist für die Sequenzen 301 und
302 ebenfalls in den Feldern für die relationale Information
304 bzw. 306 abgespeichert.
Die objektbezogenen Daten 307 bis 310 (für Objekt 1) bzw. 311
bis 314 (für Objekt 2) bestimmen die jeweiligen Sequenzen 301
und 302. Für diese Sequenzen werden relationale Informationen
bestimmt und abgespeichert, insbesondere wird jede Sequenz
als eine "globale" Bewegung interpretiert. d. h. für die
Gesamtheit einer Sequenz wird ein Merkmalssatz (303 und 304
bzw. 305 und 306) bestimmt und abgespeichert.
In Fig. 4 ist eine Anordnung dargestellt, die zwei Rechner und
eine Kamera umfaßt, wobei Bildcodierung, Übertragung der
Bilddaten und Bilddecodierung veranschaulicht werden.
Eine Kamera 1101 ist mit einem ersten Rechner 1102 über eine
Leitung 1119 verbunden. Die Kamera 1101 übermittelt
aufgenommene Bilder 1104 an den ersten Rechner 1102. Der
erste Rechner 1102 verfügt über eine erste Prozessoreinheit
1103, die über eine Bus 1118 mit einem Bildspeicher 1105
verbunden ist. Mit der Prozessoreinheit 1103 des ersten
Rechners 1102 werden die Verfahren zur Bildcodierung
durchgeführt. Auf diese Art codierte Bilddaten 1106 werden
von dem ersten Rechner 1102 über eine
Kommunikationsverbindung 1107, vorzugsweise eine Leitung oder
eine Funkstrecke, zu einem zweiten Rechner 1108 übertragen.
Der zweite Rechner 1108 enthält eine zweite Prozessoreinheit
1109 die über einen Bus 1110 mit dem Bildspeicher 1111
verbunden ist. Auf der zweiten Prozessoreinheit 1109 werden
Verfahren zur Bilddecodierung durchgeführt.
Sowohl der erste Rechner 1102 als auch der zweite Rechner
1108 verfügen jeweils über einen Bildschirm 1112 bzw. 1113,
auf dem die Bilddaten 1104 visualisiert werden. Zur Bedienung
sowohl des ersten Rechners 1102 als auch des zweiten Rechners
1108 sind jeweils Eingabeeinheiten vorgesehen, vorzugsweise
eine Tastatur 1114 bzw. 1115, sowie eine Computermaus 1116
bzw. 1117.
Die Bilddaten 1104, die von der Kamera 1101 über die Leitung
1119 zu dem ersten Rechner 1102 übertragen werden, sind
vorzugsweise Daten im Zeitbereich, während die Daten 1106,
die von dem ersten Rechner 1102 zu dem zweiten Rechner 1108
über die Kommunikationsverbindung 1107 übertragen werden,
Bilddaten im Spektralbereich sind.
Auf einem Bildschirm 1120 werden die decodierten Bilddaten
dargestellt.
Fig. 5 zeigt eine Skizze einer Anordnung zur Durchführung
eines blockbasierten Bildcodierverfahrens.
Ein zu codierender Videodatenstrom mit zeitlich
aufeinanderfolgenden digitalisierten Bildern wird einer
Bildcodierungseinheit 1201 zugeführt. Die digitalisierten
Bilder sind unterteilt in Makroblöcke 1202, wobei jeder
Makroblock 16 × 16 Bildpunkte hat. Der Makroblock 1202 umfaßt 4
Bildblöcke 1203, 1204, 1205 und 1206, wobei jeder Bildblock
8 × 8 Bildpunkte, denen Luminanzwerte (Helligkeitswerte)
zugeordnet sind, enthält. Weiterhin umfaßt jeder Makroblock
1202 zwei Chrominanzblöcke 1207 und 1208 mit den Bildpunkten
zugeordneten Chrominanzwerten (Farbinformation,
Farbsättigung).
Der Block eines Bildes enthält einen Luminanzwert
(= Helligkeit), einen ersten Chrominanzwert (= Farbton) und
einen zweiten Chrominanzwert (= Farbsättigung). Dabei werden
Luminanzwert, erster Chrominanzwert und zweiter
Chrominanzwert als Farbwerte bezeichnet.
Die Bildblöcke werden einer Transformationscodierungseinheit
1209 zugeführt. Bei einer Differenzbildcodierung werden zu
codierende Werte von Bildblöcken zeitlich vorangegangener
Bilder von den aktuell zu codierenden Bildblöcken abgezogen,
es wird nur die Differenzbildungsinformation 1210 der
Transformationscodierungseinheit (Diskrete Cosinus
Transformation, DCT) 1209 zugeführt. Dazu wird über eine
Verbindung 1234 der aktuelle Makroblock 1202 einer
Bewegungsschätzungseinheit 1229 mitgeteilt. In der
Transformationscodierungseinheit 1209 werden für die zu
codierenden Bildblöcke bzw. Differenzbildblöcke
Spektralkoeffizienten 1211 gebildet und einer
Quantisierungseinheit 1212 zugeführt. Diese
Quantisierungseinheit 1212 entspricht der erfindungsgemäßen
Vorrichtung zur Quantisierung.
Quantisierte Spektralkoeffizienten 1213 werden sowohl einer
Scaneinheit 1214 als auch einer inversen
Quantisierungseinheit 1215 in einem Rückwärtspfad zugeführt.
Nach einem Scanverfahren, z. B. einem "zigzag"-Scanverfahren,
wird auf den gescannten Spektralkoeffizienten 1232 eine
Entropiecodierung in einer dafür vorgesehenen
Entropiecodierungseinheit 1216 durchgeführt. Die
entropiecodierten Spektralkoeffizienten werden als codierte
Bilddaten 1217 über einen Kanal, vorzugsweise eine Leitung
oder eine Funkstrecke, zu einem Decoder übertragen.
In der inversen Quantisierungseinheit 1215 erfolgt eine
inverse Quantisierung der quantisierten Spektralkoeffizienten
1213. So gewonnene Spektralkoeffizienten 1218 werden einer
inversen Transformationscodierungseinheit 1219 (Inverse
Diskrete Cosinus Transformation, IDCT) zugeführt.
Rekonstruierte Codierungswerte (auch Differenzcodierungs
werte) 1220 werden im Differenzbildmodus einen Addierer 1221
zugeführt. Der Addierer 1221 erhält ferner Codierungswerte
eines Bildblocks, die sich aus einem zeitlich vorangegangenen
Bild nach einer bereits durchgeführten Bewegungskompensation
ergeben. Mit dem Addierer 1221 werden rekonstruierte
Bildblöcke 1222 gebildet und in einem Bildspeicher 1223
abgespeichert.
Chrominanzwerte 1224 der rekonstruierten Bildblöcke 1222
werden aus dem Bildspeicher 1223 einer
Bewegungskompensationseinheit 1225 zugeführt. Für
Helligkeitswerte 1226 erfolgt eine Interpolation in einer
dafür vorgesehenen Interpolationseinheit 1227. Anhand der
Interpolation wird die Anzahl in dem jeweiligen Bildblock
enthaltener Helligkeitswerte vorzugsweise verdoppelt. Alle
Helligkeitswerte 1228 werden sowohl der
Bewegungskompensationseinheit 1225 als auch der
Bewegungsschätzungseinheit 1229 zugeführt. Die
Bewegungsschätzungseinheit 1229 erhält außerdem die
Bildblöcke des jeweils zu codierenden Makroblocks (16 × 16
Bildpunkte) über die Verbindung 1234. In der
Bewegungsschätzungseinheit 1229 erfolgt die
Bewegungsschätzung unter Berücksichtigung der interpolierten
Helligkeitswerte ("Bewegungsschätzung auf Halbpixelbasis").
Vorzugsweise werden bei der Bewegungsschätzung absolute
Differenzen der einzelnen Helligkeitswerte in dem aktuell zu
codierenden Makroblock 1202 und dem rekonstruierten
Makroblock aus dem zeitlich vorangegangenen Bild ermittelt.
Das Ergebnis der Bewegungsschätzung ist ein Bewegungsvektor
1230, durch den eine örtliche Verschiebung des ausgewählten
Makroblocks aus dem zeitlich vorangegangenen Bild zu dem zu
codierenden Makroblock 1202 zum Ausdruck kommt.
Sowohl Helligkeitsinformation als auch Chrominanzinformation
bezogen auf den durch die Bewegungsschätzungseinheit 1229
ermittelten Makroblock werden um den Bewegungsvektor 1230
verschoben und von den Codierungswerten des Makroblocks 1202
subtrahiert (siehe Datenpfad 1231).
In Fig. 6 ist eine Prozessoreinheit PRZE dargestellt. Die
Prozessoreinheit PRZE umfaßt einen Prozessor CPU, einen
Speicher SPE und eine Input/Output-Schnittstelle IOS, die
über ein Interface IFC auf unterschiedliche Art und Weise
genutzt wird: Über eine Grafikschnittstelle wird eine Ausgabe
auf einem Monitor MON sichtbar und/oder auf einem Drucker PRT
ausgegeben. Eine Eingabe erfolgt über eine Maus MAS oder eine
Tastatur TAST. Auch verfügt die Prozessoreinheit PRZE über
einen Datenbus BUS, der die Verbindung von einem Speicher
MEM, dem Prozessor CPU und der Input/Output-Schnittstelle IOS
gewährleistet. Weiterhin sind an den Datenbus BUS zusätzliche
Komponenten anschließbar, z. B. zusätzlicher Speicher,
Datenspeicher (Festplatte) oder Scanner.
Fig. 7 zeigt eine zu Fig. 3 alternative Ausführungsform zur
Abspeicherung objektbezogener Bilddaten. Dargestellt sind
eine Sequenz 701 von Bilddaten für das Objekt 1 und eine
Sequenz 702 Bilddaten für das Objekt 2. Eine zu dem jeweiligen
Objekt gehörende intrinsische Information (Form, Farbe des
Objekts) 703 bzw. 704 ist jeweils mit dem Objekt 701 bzw. 702
abgespeichert. Die relationale Information 713 ist
vorzugsweise gesondert von den jeweiligen Objekten 701 und
702 abgespeichert. Dabei umfaßt die relationale Information
713 eine Merkmalsinformation 714 betreffend die Verknüpfung
der Objekte 701 und 702, z. B. die Bewegung des Objektes 1
relativ zu dem Objekt 2. Die Verknüpfung selbst wird
hergestellt mittels der Bezugsinformation 715, 716, die
bevorzugt Referenzen zu den mit der Merkmalsinformation 714
assoziierten Objekten 701 und 702 aufweist.
Die objektbezogenen Daten 705 bis 708 bzw. 704 bis 712
bestimmen jeweils eine zu dem jeweiligen Objekt gehörende
Sequenz. Die Sequenz kann eine beliebige Anzahl Bilder (für
das jeweilige Objekt) umfassen.
Literaturverzeichnis:
[1] J. De Lameillieure, R. Schäfer: "MPEG-2-Bildcodierung für das digitale Fernsehen", Fernseh- und Kino-Technik, 48. Jahrgang, Nr. 3/1994, Seiten 99-107.
[2] M. Bierling: "Displacement Estimation by Hierarchical Blockmatching", SPIE, Vol: 1001, Visual Communications and Image Processing '88, S. 942-951, 1988.
[3] ITU-T, International Telecommunication Union, Telecommunications Sector of ITU, Draft ITU-T Recommendation H.263, Videocoding for low bitrate communication, 2.5.96.
[1] J. De Lameillieure, R. Schäfer: "MPEG-2-Bildcodierung für das digitale Fernsehen", Fernseh- und Kino-Technik, 48. Jahrgang, Nr. 3/1994, Seiten 99-107.
[2] M. Bierling: "Displacement Estimation by Hierarchical Blockmatching", SPIE, Vol: 1001, Visual Communications and Image Processing '88, S. 942-951, 1988.
[3] ITU-T, International Telecommunication Union, Telecommunications Sector of ITU, Draft ITU-T Recommendation H.263, Videocoding for low bitrate communication, 2.5.96.
Claims (15)
1. Verfahren zum Abspeichern von mindestens einem Bild durch
einen Rechner,
bei dem eine relationale Information mit dem mindestens
einen Bild assoziiert abgespeichert wird.
2. Verfahren nach Anspruch 1,
bei dem die relationale Information zu dem mindestens
einen Bild ermittelt wird.
3. Verfahren nach einem der vorhergehenden Ansprüche,
bei dem die relationale Information eine
Merkmalsinformation und eine Bezugsinformation zwischen
Objekten und/oder Bildern umfaßt.
4. Verfahren nach einem der vorhergehenden Ansprüche,
bei dem das mindestens eine Bild eine Sequenz von
mehreren Bildern ist.
5. Verfahren nach einem der vorhergehenden Ansprüche,
bei dem die relationale Information mindestes eine der
folgenden Möglichkeiten umfaßt:
- a) Bewegungsinformation;
- b) Abstandsinformation;
- c) Überlappungsinformation;
- d) Information bezüglich einer Beziehung zwischen Objekten und/oder Bildern.
6. Verfahren nach Anspruch 5,
bei dem die Bewegungsinformation folgende Parameter
umfaßt:
- a) Translation,
- b) Rotation,
- c) Zoom.
7. Verfahren nach einem der vorhergehenden Ansprüche,
bei dem die relationale Information anhand einer
Transformation über der Zeit bestimmt wird.
8. Verfahren nach einem der vorhergehenden Ansprüche,
bei dem die relationale Information zu jeweils zwei
Bildern bestimmt wird.
9. Verfahren nach einem der vorhergehenden Ansprüche,
bei dem das mindestens eine Bild mindestens zwei Objekte
enthält, für die die relationale Information bestimmt
wird.
10. Verfahren nach Anspruch 9,
bei dem die relationale Information zu jeweils zwei
Objekten bestimmt wird.
11. Verfahren nach einem der vorhergehenden Ansprüche,
bei dem die relationale Information zu einem Merkmalssatz
nach einem Bildkompressionsstandard hinzugefügt wird.
12. Verfahren nach Anspruch 11,
bei dem der Bildkompressionsstandard ein MPEG-Standard
oder ein H.26x-Standard ist.
13. Verfahren nach einem der vorhergehenden Ansprüche
zum Einsatz beim Encoding nach einem
Bildkompressionsverfahren.
14. Verfahren nach einem der vorhergehenden Ansprüche,
bei dem anhand der mit dem mindestens einen Bild
abgespeicherten relationalen Information eine Suche in
den abgespeicherten Daten ermöglicht wird.
15. Anordnung zum Abspeichern von mindestens einem Bild durch
einen Rechner,
bei der eine Prozessoreinheit vorgesehen ist, die derart
eingerichtet ist, daß
eine relationale Information mit dem mindestens einen
Bild assoziiert abspeicherbar ist.
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE19906830A DE19906830A1 (de) | 1999-02-18 | 1999-02-18 | Verfahren und Anordnung zum Abspeichern von mindestens einem Bild durch einen Rechner |
| PCT/DE2000/000386 WO2000049525A1 (de) | 1999-02-18 | 2000-02-09 | Verfahren und anordnung zum abspeichern von mindestens einem bild mit zugehöriger relationalen information |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE19906830A DE19906830A1 (de) | 1999-02-18 | 1999-02-18 | Verfahren und Anordnung zum Abspeichern von mindestens einem Bild durch einen Rechner |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| DE19906830A1 true DE19906830A1 (de) | 2000-08-31 |
Family
ID=7897925
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE19906830A Withdrawn DE19906830A1 (de) | 1999-02-18 | 1999-02-18 | Verfahren und Anordnung zum Abspeichern von mindestens einem Bild durch einen Rechner |
Country Status (2)
| Country | Link |
|---|---|
| DE (1) | DE19906830A1 (de) |
| WO (1) | WO2000049525A1 (de) |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH06101018B2 (ja) * | 1991-08-29 | 1994-12-12 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 動画像データベースの検索 |
| EP0805405A3 (de) * | 1996-02-05 | 1998-04-15 | Texas Instruments Incorporated | Detektion von Bewegungsereignissen zum Indexieren von Videos |
| US5969755A (en) * | 1996-02-05 | 1999-10-19 | Texas Instruments Incorporated | Motion based event detection system and method |
-
1999
- 1999-02-18 DE DE19906830A patent/DE19906830A1/de not_active Withdrawn
-
2000
- 2000-02-09 WO PCT/DE2000/000386 patent/WO2000049525A1/de not_active Ceased
Also Published As
| Publication number | Publication date |
|---|---|
| WO2000049525A1 (de) | 2000-08-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE69623330T2 (de) | Merkmalbasiertes videokompressionsverfahren | |
| DE60015566T2 (de) | Verfahren und vorrichtung zur komprimierung eines bewegungsvektorfeldes | |
| DE69723550T2 (de) | Kodierung und dekodierung von grafischen symbolen | |
| EP1025708B1 (de) | Verfahren und vorrichtung zur verarbeitung eines digitalisierten bildes | |
| DE19704439C2 (de) | Verfahren und Vorrichtung zur Bewegungsschätzung in einem digitalen Videocodierer unter Verwendung von Trajektorien | |
| DE69521255T2 (de) | Verfahren zum betrieb eines interaktiven bildanzeigesystems und bildanzeigesystem zur durchführung des verfahrens | |
| DE69915843T2 (de) | Teilbandkodierung/-dekodierung | |
| EP0773690A2 (de) | Verfahren zur Codierung eines Videodatenstroms | |
| DE60107149T2 (de) | Digitales Bildausgabegerät | |
| DE69637008T2 (de) | Verfahren zur Videokompression mittels Teilbandzerlegung | |
| EP1116184B1 (de) | Verfahren und anordnung zur bearbeitung eines digitalisierten bildes mit bildpunkten | |
| EP1101196B1 (de) | Verfahren und anordnung zur bewegungsschätzung in einem digitalisierten bild mit bildpunkten | |
| EP1285537B1 (de) | Verfahren und eine anordnung zur codierung bzw. decodierung einer folge von bildern | |
| EP0985317B1 (de) | Verfahren zur codierung und decodierung eines digitalisierten bildes | |
| EP1110407B1 (de) | Verfahren und anordnung zur codierung und decodierung eines digitalisierten bildes mit anwendung eines gesamtbewegungsvektors | |
| DE69909880T2 (de) | Dekodierung eines komprimierten digitalen Bildsignals | |
| DE19951341B4 (de) | Verfahren zur bewegungskompensierenden Prädiktion von Bewegtbildern sowie Einrichtung hierzu | |
| EP0981910B1 (de) | Verfahren und vorrichtung zur codierung eines digitalisierten bildes | |
| WO2001049038A1 (de) | Verfahren, anordnung und computerprogrammerzeugnis zur prädiktion bei der codierung eines in bildblöcke unterteilten bildes | |
| DE19906830A1 (de) | Verfahren und Anordnung zum Abspeichern von mindestens einem Bild durch einen Rechner | |
| DE10007171A1 (de) | Verfahren und Anordnung zur Codierung bzw. zur Codierung und Decodierung einer Zahlenfolge | |
| EP0981909B1 (de) | Verfahren und vorrichtung zur codierung und decodierung eines digitalisierten bildes | |
| DE19944300C2 (de) | Verfahren, Anordnung und Computerprogrammerzeugnis zur Bewegungsschätzung bei der Codierung von einem Bildobjekt in einem Bild | |
| DE19903859A1 (de) | Verfahren und Anordnung zur Transformation eines Bildbereichs | |
| EP1121809B1 (de) | Verfahren und anordnung zur codierung eines digitalisierten bildes, verfahren und anordnung zur decodierung eines digitalisierten bildes |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| OP8 | Request for examination as to paragraph 44 patent law | ||
| 8130 | Withdrawal |