-
Technisches
Gebiet der Erfindung
-
Diese
Erfindung bezieht sich im Allgemeinen auf Überwachungssysteme und im Spezielleren
auf ein Verfahren für
die Abbildung der physischen Position eines Objekts von einem Videobild
auf eine Karte eines überwachten
Gebiets.
-
Hintergrund
der Erfindung
-
Ein Überwachungs-
oder Beobachtungssystem kann eine Videokamera umfassen, die Bilder
eines überwachten
Gebiets oder einer überwachten Region
erzeugt, und einen Computer, der die Bilder von der Videokamera
empfängt
und verarbeitet. Der Computer umfasst eine digitalisierte Karte
und er überwacht
die erfassten Videobilder, um im überwachten Gebiet die Anwesenheit
eines Objekts von Interesse, wie zum Beispiel eines Menschen, festzustellen.
Wenn durch eine Analyse der erfassten Bilder ein Objekt von Interesse
identifiziert wird, wird der Standort des Objekts auf dem Bild auf
der Karte abgebildet.
-
Es
ist auch üblich,
die Ausgabe von jeder Kamera auf einem Zeitraffer-Videorekorder (VCR)
aufzuzeichnen. Im Falle eines Problems oder Sicherheitsvorfalls
kann dann die daraus resultierende Aufzeichnung untersucht werden.
Es ist auch möglich, einen
Video- oder Infrarot-Bewegungsdetektor zu verwenden, so dass der
VCR nichts aufzeichnet, es sei denn, es bewegt sich etwas im überwachten
Gebiet. Dies verringert den Bandverbrauch und erleichtert das Auffinden
von Filmlänge,
die von Interesse ist. Trotzdem ist nach wie vor ein VCR erforderlich, was
eine relativ komplexe und teuere Komponente darstellt, die mechanischen
Fehlern unterliegt und regelmäßig gewartet
werden muss, zum Beispiel durch Reinigung der Videoköpfe. Außerdem tendieren
Infrarot-Bewegungsdetektoren
dazu, falsche Erfassungen zu erzeugen.
-
Einen
anderen bekannten Ansatz stellt die Verwendung eines volldigitalen
Bild erzeugenden Videosystems dar, das jedes Videobild unmittelbar nach
dessen Erfassung in ein komprimiertes digitales Format umwandelt.
Die digitalen Daten werden dann in einer herkömmlichen Datenbank gespeichert
(wie zum Beispiel einer Plattenfarm, die durch eine Bandjukebox
gesichert ist). Dieser Ansatz ist relativ teuer, erfordert eine
erhebliche Menge an Speicherplatz und hilft einem Bediener in keiner
Weise beim Auffinden von Einzelbildern, die von Interesse sind.
-
In
einem anderen Ansatz werden eine Videokamera und ein Personal Computer
verwendet, um Personen zu erfassen und zu verfolgen, und das erste
Bild, das bestimmte Alarmbedingungen erfüllt, wird gespeichert. Dieses
System versucht jedoch nicht, eine gute Ansicht der Person auszuwählen, und
folglich kann es vorkommen, dass die Person auf dem gespeicherten
Bild mit dem Rücken
zur Kamera abgebildet ist, wodurch es schwer oder unmöglich wird, diese
bestimmte Person zu identifizieren. Ein anderes bekanntes System
zeigt eine Bewegungsbahn einer erkannten Person, die sich im überwachten
Gebiet befindet, an aber es verwirft die Bewegungsbahn, nachdem
die Person das überwachte
Gebiet verlassen hat.
-
WO
95/24702 zeigt ein Auswertungssystem für Überwachungskameras, das Objekte
innerhalb eines Feldes auf einem Überwachungsbild herauszieht
und ein Signal liefert, wenn definierte Objektmerkmale identifiziert
werden.
-
All
diese bekannten Ansätze
sind im Allgemeinen angebracht für
ihre beabsichtigten Zwecke, aber sie sind nicht in allen Hinsichten
zufrieden stellend. Sie beinhalten beispielsweise Hardware, die
relativ teuer und nicht sonderlich kompakt ist. Sie verwenden häufig einen
VCR, der mechanischen Fehlern unterliegt und regelmäßig gewartet
werden muss. Einige Systeme speichern alle eingehenden Videoinformationen,
wodurch eine erhebliche Menge an Speicherplatz benötigt wird
und es schwer ist, Ereignisse von Interesse zu finden.
-
Dieses
bekannte System beinhaltet ein mit rechnerunterstütztem Zeichnen
(CAD) hergestelltes Modell der Umgebung oder des überwachten
Gebiets, das als Grundlage für
die Karte dient. Außerdem
müssen
zur genauen Bestimmung der Stelle auf der Karte, an der ein Objekt
in den erfassten Bildern identifiziert wurde, Parameter der Kamera
bestimmt und in den Computer eingespeist werden. Die Kameraparameter
beinhalten nicht nur interne Parameter, wie zum Beispiel die Brennweite
und die Anzahl an Millimetern pro Pixel, sondern auch externe Parameter,
wie zum Beispiel den Standort und die Ausrichtung der Kamera.
-
Wenn
dieses bekannte System in Betrieb ist, wird der Standort eines Objekts
in einem Videobild auf der Karte durch eine Formel festgestellt,
die durch das Invertieren von Gleichungen, die die Bilderzeugungsgeometrie
definieren, abgeleitet wurde. Der erforderliche Aufbau und die Initialisierung
dieses Systems ist komplex und zeitaufwendig. Die Bestimmung aller
zugehörigen
internen und externen Parameter der Kamera und die Eingabe dieser
in das Computersystem stellt eine komplexe und zeitaufwendige Aufgabe
dar. Auch die Vorbereitung des CAD-Modells des überwachten Gebiets kann eine langsame
und zeitaufwendige Aufgabe darstellen.
-
Außerdem können immer
noch Fehler auftreten, selbst wenn bei der Bestimmung der Kameraparameter
und der Vorbereitung des CAD-Modells mit Sorgfalt gearbeitet wird.
Ein Objekt, das beispielsweise von der Kamera visuell wahrnehmbar
ist, da es auf einer Seite einer Wand ist, die sich am nächsten bei
der Kamera befindet, kann auf der Karte inkorrekt auf der gegenüberliegenden
Seite dieser Wand positioniert sein, wo es für die Kamera in Wirklichkeit
gar nicht visuell wahrnehmbar wäre.
Fehler dieser Art sind sogar noch problematischer, wenn die Kameraparameter
und das CAD-Modell nicht sorgfältig
eingerichtet werden.
-
Heute
gibt es nun Videokameras, die an einen Computer gekoppelt werden
können,
und es gibt Softwareprogramme, die Videobilder von solchen Kameras
in ein Dokument mit dem Format Hyptertext Mark-Up Language (HTML)
konvertieren können, oder
anders ausgedrückt
in ein Dokument, das mit dem als World Wide Web (WWW) bekannten
Internetstandard kompatibel ist. Außerdem werden Geräte für personenbezogene
Datenübertragung,
wie zum Beispiel Mobiltelefone, Pager und PDAs immer beliebtere
Handelsprodukte, da sich die drahtlose Übertragungstechnologie immer
weiter verbreitet und erschwinglich wird. Genau gesagt gibt es jetzt ein
tragbares Telefon, das eine kleine Videoanzeige hat, und das einen
WWW-kompatiblen Browser umfasst, der es ermöglicht, mit der tragbaren Einheit HTML-Dokumente
vom Internet herunterzuladen und anzuzeigen.
-
Gleichzeitig
sind Haushaltssicherheitssysteme alltäglicher geworden. Aber selbst
die höchstentwickelten
Haushaltssicherheitssysteme sind durch rudimentäre Vorrichtungen für einen
Fernzugriff durch den Eigentümer
begrenzt. Außerdem
wird relativ häufig
Fehlalarm ausgelöst.
Selbst wenn der Eigentümer über den
Alarm in Kenntnis gesetzt wird, gibt es keinen bequemen und kostengünstigen
Weg für
den Eigentümer,
herauszufinden, ob es sich um einen Fehlalarm handelt. Bestehende
Systeme benachrichtigen zum Beispiel einen Eigentümer eventuell über einen
möglichen
Einbruch oder ein anderes Vorkommnis mit Hilfe eines automatischen
Telefonanrufs oder einer Funkrufnachricht, aber der Eigentümer hat
keine Möglichkeit,
zu verifizieren, ob es sich um ein tatsächliches Problem oder nur um
einen Fehlalarm handelt.
-
Während diese
bestehenden Überwachungssysteme
im Allgemeinen angebracht für
ihre beabsichtigten Zwecke sind, sind sie nicht in allen Hinsichten
zufrieden stellend. Selbst wenn, zum Beispiel und wie oben erwähnt, ein
Eigentümer über einen
Funkruf oder einen Telefonanruf über
ein Problem oder ein anderes Ereignis von Interesse benachrichtigt
wird, gibt es keine günstige
Möglichkeit für den Eigentümer, herauszufinden,
ob das Ereignis ein tatsächliches
Problem oder einen Fehlalarm darstellt, geschweige denn von praktisch
jedem Fernstandort aus. Außerdem
lassen es bestehende Systeme nicht zu, dass der Betrieb der Kamera
von praktisch jedem Fernstandort aus angepasst werden kann.
-
Zusammenfassung
der Erfindung
-
Man
kann aus dem Vorhergehenden schließen, dass auf dem Gebiet der
automatischen Überwachung
der Bedarf für
ein Verfahren aufgekommen ist, das verlässlich ist und auf intelligente
Weise ausgewählte
bedeutende Informationen speichert und dabei die Speicherkapazität minimiert.
-
In Übereinstimmung
mit einem bevorzugten Ausführungsbeispiel
der vorliegenden Erfindung wird ein Verfahren geliefert, das diesen
Bedarf anspricht und das folgendes einschließt: das regelmäßige Erfassen
eines Bildes des Gebiets, die Subtraktion jedes erfassten Bildes
von einem Referenzbild, die Identifikation eines sich bewegenden
Objekts durch das Verarbeiten jeder veränderten Region, in der ein aktuell
erfasstes Bild vom Referenzbild abweicht, und die Definition eines
Objektbildes als Teil des aktuell erfassten Bildes, das jedem identifizierten
sich bewegenden Objekt entspricht. Das Verfahren ist dadurch gekennzeichnet,
dass es ferner folgendes umfasst: nach der ersten Identifizierung
eines sich bewegenden Objekts Speicherung des Objektbildes, das
dem erfassten sich bewegenden Objekt entspricht; und für jedes
nachfolgend erfasste Bild automatische Auswahl eines vorherigen
Objektbildes oder eines aktuellen Objektbildes jedes erfassten sich
bewegenden Objekts unter Verwendung von Auswahlkriterien, Speicherung
des ausgewählten Objektbildes
jedes identifizierten Objekts und Verwerfen des nicht ausgewählten Objektbildes
jedes identifizierten sich bewegenden Objekts, wobei ein einzelnes
Objektbild jedes entsprechenden sich bewegenden Objekts gespeichert
wird.
-
Vorzugsweise
wird ein Objektbild eines identifizierten Objekts als Rahmen definiert,
der gerade groß genug
ist, um die entsprechende veränderte Region
zu beinhalten, wobei die Auswahlkriterien dasjenige des vorherigen
Objektbilds oder des aktuellen Objektbilds auswählen, dessen Rahmenunterseite
niedriger im erfassten Bild ist. Alternativ dazu wählen die
Auswahlkriterien dasjenige des vorherigen Objektbilds oder des aktuellen
Objektbilds aus, das einen größeren Rahmen
aufweist, wenn die Unterseite des Rahmens des vorherigen Objektbildes genau
so niedrig wie die Unterseite des Rahmens des aktuellen Objektbildes
ist.
-
In
einem anderen Ausführungsbeispiel
wählen
die Auswahlkriterien dasjenige des vorherigen Objektbilds oder des
aktuellen Objektbilds aus, dessen entsprechende veränderte Region
größer ist.
-
In
einem weiteren bevorzugten Ausführungsbeispiel
werden automatisch Bahninformationen gespeichert, die die Bewegungsbahn
jedes erfassten sich bewegenden Objekts identifizieren, und das
Verfahren umfasst ferner folgendes: Beibehaltung der Bahninformationen
und des aktuell ausgewählten Objektbildes,
nachdem das sich bewegende Objekt nicht mehr in den erfassten Bildern
zu identifizieren ist; und Anzeigen des Referenzbildes, in das eine Bahn,
die den Bahninformationen eines ausgewählten Objekts entspricht, und
ein gespeichertes Objektbild des ausgewählten sich bewegenden Objekts
an einer Stelle eingeblendet sind, die der Stelle des sich bewegenden
Objekts zu dem Zeitpunkt entspricht, als das gespeicherte Objektbild
identifiziert wurde.
-
Kurze Beschreibung
der Zeichnungen
-
Aus
der folgenden ausführlichen
Beschreibung erhält
man ein besseres Verständnis
der vorliegenden Erfindung, wenn man diese mit den beigefügten Zeichnungen
betrachtet, in denen:
-
1 eine
schematische Darstellung eines automatischen Überwachungssystems darstellt,
das die vorliegende Erfindung verkörpert;
-
2A, 2B, 2C, 2D, 2E, 2F, 2G und 2H sind
schematische Darstellungen von zweidimensionalen Bildern, die aufeinander
folgende Schritte darstellen, die vom System aus 1 bei
der Verarbeitung von Bildern, die von einer Videokamera erhalten
wurden, ausgeführt werden;
-
3 ist
ein Bewegungsanalysediagramm, das anzeigt, wie die Bewegung von
Objekten in einem Videobild vom System aus 1 analysiert wird;
-
4 ist
eine schematische Draufsicht eines Stockwerksgrundrisses eines Gebäudes, in
dem das System aus 1 benutzt werden kann;
-
5 ist
eine schematische Darstellung eines Referenzbildes, das vom System
aus 1 für das
Gebäude
aus 4 geliefert wird;
-
6 ist
eine schematische Darstellung eines Videobildes, das dem Bild aus 5 ähnelt, aber das
die Anwesenheit einer Person zeigt;
-
7 ist
eine schematische Darstellung einer Verzeichnisstruktur, die auf
einem Festplattenlaufwerk im System aus 1 verwendet
wird;
-
8 ist
eine schematische Darstellung einer Anzeige, die auf dem Bildschirm
eines Computermonitors angezeigt wird, der ein Bestandteil des Systems
aus 1 ist;
-
9 ist ähnlich wie 8 eine
schematische Darstellung einer Anzeige, die auf dem Bildschirm des
Computermonitors aus 1 angezeigt wird;
-
10 ist
eine schematische Draufsicht eines Teils eines Stockwerksgrundrisses,
in dem das System aus 1 verwendet werden kann;
-
11 ist
eine schematische Darstellung eines Referenzvideobildes, das vom
System aus 1 für das Gebäude aus 10 geliefert
wird;
-
12 ist
eine schematische Darstellung eines Teils einer Videoanzeige, die
vom System aus 1 geliefert wird, um es einem
Bediener zu ermöglichen,
eine Abbildungsfunktion zwischen einem erfassten Videobild des überwachten
Gebiets und einer Karte des überwachten
Gebiets zu definieren;
-
13 ist ähnlich wie 12 eine
schematische Darstellung, die aber eine exemplarische Anzeige zeigt,
die vom System aus 1 während dem normalen Betrieb
erzeugt wird;
-
14 ist
eine schematische Darstellung einer Überwachungsvorrichtung, die
die vorliegende Erfindung verkörpert,
wobei die Überwachungsvorrichtung
zwei Videokameras umfasst, ein System, das Videobilder von den Kameras
verarbeitet, und eine tragbare Einheit, die durch eine drahtlose
Verbindung mit dem System gekoppelt ist;
-
15 ist
ein Flussdiagramm auf oberster Ebene von Bildverarbeitungstechniken,
die von der Vorrichtung aus 14 angewendet
werden;
-
16 ist
eine schematische Darstellung eines exemplarischen Bildschirmbildes,
das auf der Anzeige der tragbaren Einheit aus 14 angezeigt wird;
-
17A–17C sind jeweils schematische Darstellungen von
Videobildern, die veranschaulichen, wie Videobilder von der Vorrichtung
aus 14 verarbeitet werden;
-
18 ist
eine schematische Darstellung einer in 2G abgebildeten
Region von Interesse, die auf einem in 2A abgebildeten
Referenzbild eingeblendet ist;
-
19 ist
eine schematische Darstellung des Umrisses der Region von Interesse,
die in 2G abgebildet ist;
-
20 ist
eine schematische Darstellung des Umrisses aus 19,
die auf dem in 2A abgebildeten Referenzbild
eingeblendet ist;
-
21 ist
eine schematische Darstellung einer Region, die vom Bild aus 2B abgeleitet
ist, von der ein Teil Grauskala-Informationen beinhaltet und ein
anderer Teil keine Grauskala-Informationen beinhaltet; und
-
22 ist
eine schematische Darstellung, die die Unterschiede zwischen zwei
aufeinander folgenden erfassten Bildern darstellt.
-
Ausführliche
Beschreibung der Erfindung
-
1 stellt
eine schematische Darstellung eines Überwachungssystems 10 dar,
das die vorliegende Erfindung verkörpert und das dafür verwendet wird,
Aktivitäten
in einem ausgewählten
Gebiet oder in einer ausgewählten
Region zu überwachen.
Das Überwachungssystem 10 umfasst
eine Kameraeinheit 12 und einen Arbeitsrechner 13,
die durch ein unter 14 schematisch abgebildetes Netzwerk
operativ gekoppelt sind. Bei dem Netzwerk 14 kann es sich um
ein lokales Netzwerk, das Internet, irgendeine andere Netzwerkart,
eine Modemverbindung oder eine Kombination solcher Technologien
handeln. Bei dem Arbeitsrechner 13 kann es sich um einen
Personal Computer, einschließlich
eines Prozessors 17, einer Tastatur 18, einer
Maus 19 und eines Bildschirms 21 handeln.
-
Die
Kameraeinheit 12 umfasst eine Videokamera 23,
bei der es sich im offenbarten Ausführungsbeispiel um eine Monochrom-Kamera
handelt. Die vorliegende Erfindung ist jedoch auch für den Gebrauch
mit einer Farb-Videokamera
oder einer anderen Art zweidimensionalen Bilddetektors, wie zum Beispiel
einem Infrarotdetektor geeignet. Die Videokamera 23 umfasst
einen Detektor 24, bei dem es sich um ein Ladungskoppelelement
(CCD) oder ein CMOS-Bildsensorelement handeln kann. Die Videokamera 23 umfasst
des Weiteren nicht abgebildete Optik bekannter Art, die ein Bild
auf dem Detektor 24 fokussiert.
-
Die
Kameraeinheit 12 umfasst des Weiteren einen Bildverarbeitungsabschnitt 27.
Der Bildverarbeitungsabschnitt 27 umfasst eine Video-Schnittstellenschaltung 28,
die die Ausgabe des Detektors 24 empfängt, und eine Netzwerk-Schnittstellenschaltung 29,
die die Datenübertragung über das
Netzwerk 14 ermöglicht.
Der Bildverarbeitungsabschnitt 27 könnte auch ein Modem beinhalten,
zusätzlich
zu oder an Stelle der Schnittstellenschaltung 29, um eine
Datenübertragung über Telefonleitungen
zu ermöglichen.
Der Bildverarbeitungsabschnitt 27 umfasst des Weiteren
einen Prozessor 33 und einen Speicher, wie zum Beispiel
ein Festplattenlaufwerk 34. Das Festplattenlaufwerk 34 könnte optional
durch einen anderen Typ geeigneten nichtflüchtigen Speichers ersetzt werden,
wie zum Beispiel einen Flash-Speicher oder einen Speicher mit Netzausfallschutz.
-
Im
offenbarten Ausführungsbeispiel
befindet sich der Bildverarbeitungsabschnitt 27 physisch
innerhalb des Gehäuses
der Kameraeinheit 12. Folglich ist die Kameraeinheit 12 ein
eigenständiges
Gerät,
das direkt mit einer Telefonleitung oder einem Netzwerk gekoppelt
werden kann, wie zum Beispiel dem Netzwerk 14. Man wird
jedoch erkennen, dass der Bildverarbeitungsabschnitt 27 alternativ
auch mit Hilfe eines Personal Computers implementiert sein könnte, der
sich physisch getrennt von der Videokamera 23 befindet
und eine Einsteck-Video-Capture-Karte aufweist, die als Video-Schnittstellenschaltung
dient, und der eine Einsteck-Netzwerk-Schnittstellenkarte aufweist,
die als Netzwerk-Schnittstellenschaltung dient. Ferner wäre es möglich, obwohl das
offenbarte System nur eine Videokamera 23 umfasst, zwei
oder mehr Videokameras mit einem einzigen Bildverarbeitungsabschnitt
zu verwenden.
-
Die
anfängliche
Verarbeitung von Videobildern durch den Arbeitsrechner 13 wird
nun unter Bezugnahme auf die 2A–2H und 3 beschrieben.
Genauer gesagt, handelt es sich bei 2A um
eine schematische Darstellung eines Videobildes, das von der Videokamera 12 erzeugt
wird, wenn sie auf ein Gebiet ausgerichtet ist, das in diesem Beispiel
willkürlich
als Ecke eines Raumes gewählt
wurde. Das Videobild aus 2A wird
als Referenzbild gespeichert. 2B ist
ein ähnliches
Videobild, das von der Kamera 12 zu einem späteren Zeitpunkt
erhalten wurde, nachdem ein Objekt 41 in das überwachte
Gebiet eingefügt
wurde. In diesem Fall handelt es sich bei dem Objekt 41 um
eine Person, der in die Ecke des Raumes und somit in den Sehbereich
der Videokamera 12 gelaufen ist. Die Videokamera 12 ist
stationär
und somit ist der einzige Unterschied zwischen dem Bild aus 2A und
dem aus 2B die Anwesenheit der Person 41 in 2B. Die
Anwesenheit und die Bewegung der Person 41 werden folgendermaßen erfasst.
-
Zuerst
wird das Grauskalabild aus 2B vom
Grauskalabild aus 2A auf Pixelbasis subtrahiert.
Dann wird der absolute Wert der Differenz für jedes Pixel ermittelt und
das Ergebnis ist das Grauskala-Differenzbild aus 2C.
Danach wird das Differenzbild aus 2C einem
Subsampling unterzogen, um die Anzahl an Pixel zu verringern, zum
Beispiel auf ein Bild mit 128 mal 128 oder 256 mal 256 Pixel. Das
sich daraus ergebende Bild mit niedriger Auflösung ist in 2D abgebildet.
Man wird erkennen, dass es alternativ möglich ist, jedes der Bilder aus
den 2A und 2B einem
Subsampling zu unterziehen, bevor die Differenz und der absolute Wert
für jedes
Pixel ermittelt wird, wodurch die Anzahl an zu verarbeitenden Pixeln
verringert wird, und folglich auch die Zeit, die benötigt wird,
bis man das Bild aus 2D erhält, verringert wird.
-
Das
Differenzbild mit niedriger Auflösung
aus 2D wird dann mit einem Schwellwert verglichen. Anders
ausgedrückt,
wird der Grauskalawert für
jedes Pixel im Bild aus 2D mit
einem vorher festgelegten Schwellwert verglichen und das Pixel wird dann
auf entweder an oder aus gesetzt (schwarz oder weiß), je nachdem,
ob der Wert über
oder unterhalb des Schwellwerts liegt. Das sich daraus ergebende
Schwellwertbild ist in 2E abgebildet. Jedes Pixel im
Schwellwertbild aus 2E kann durch eine binäre „1" oder eine binäre „0" dargestellt werden,
je nachdem, ob das Pixel als an oder aus angesehen wird.
-
Danach
wird für
jedes Pixel des Schwellwertbildes aus 2E eine
morphologische Verarbeitung durchgeführt, indem erst eine erweiternde
Operation und dann eine erodierende Operation durchgeführt wird.
Genauer gesagt, wird jedes Pixel so verarbeitet, dass es als Mittelpixel
in einer Matrix von drei auf drei Pixel angesehen wird. Während der
erweiternden Operation jedes Pixels im Schwellwertbild aus 2E wird
für das
Pixel von Interesse eine logische „1" gesetzt, wenn eines der acht benachbarten
Pixel in diesem Bild eine logische „1" aufweist. Das sich daraus ergebende
erweiterte Bild ist in 2F abgebildet. Während der
anschließenden
erodierenden Operation jedes Pixels im erweiterten Bild aus 2F wird
für das
Pixel von Interesse eine logische „0" gesetzt, wenn eines der acht benachbarten
Pixel in diesem Bild eine logische „0" aufweist. Das Ergebnis ist das erodierte
Bild aus 2G.
-
Das
erodierte Bild aus 2G wird dann analysiert, um
jede Region zusammen hängender
Pixel mit logischer „1" zu identifizieren.
Jede solche Region zusammen hängender
Pixel mit logischer „1" stellt eine veränderte Region
dar, die einem Objekt entspricht, das in das Bild aus 2B eingefügt wurde
und das im Bild aus 2A nicht vorhanden war, wie
zum Beispiel die Person 41. Diese Analyse kann unter Anwendung
bekannter Techniken durchgeführt werden,
wie zum Beispiel Lauflängenkodierung
gefolgt von einer Zusammenhangskomponentenanalyse.
-
Im
Hinblick auf jede veränderte
Region stellt der Bildverarbeitungsabschnitt 27 einen Rahmen
für die
veränderte
Region fest. Ein Beispiel eines Rahmens ist unter 43 in 2H abgebildet.
Man wird erkennen, dass es sich bei dem Rahmen 43 um einen rechteckigen
Rahmen handelt, der gerade groß genug
ist, um die gesamte veränderte
Region zu beinhalten. Das heißt,
dass sich kein Pixel der veränderten
Region außerhalb
des Rahmens befindet, aber jede Seite des Rahmens mindestens ein
Pixel der veränderten
Region berührt.
-
Die
oben beschriebene Bildverarbeitung wird für jedes Bild in einer Reihe
von Bildern ausgeführt, die
von der Videokamera 12 geliefert werden. Das heißt, dass
jedes dieser aufeinander folgenden Bilder hinsichtlich des Referenzbildes
der 2A verarbeitet wird, und zwar auf dieselbe Weise,
wie oben für das
Bild aus 2B beschrieben wurde.
-
Der
Arbeitsrechner 13 führt
dann eine Bewegungsanalyse durch, indem er die Bewegung oder Nicht-Bewegung
jeder identifizierten veränderten
Region über
eine Reihe von Frames oder Bildern von der Videokamera verfolgt.
Um ein leichteres Verständnis
der vorliegenden Erfindung zu ermöglichen, wird eine bekannte
Bewegungsanalysetechnik kurz unter Bezugnahme auf 3 zusammengefasst. Obwohl
man erkennen wird, dass die Bewegungsanalyse in den Videobildern
zweidimensional durchgeführt
wird, ist im Diagramm der 3 der Einfachheit halber
nur eine Dimension abgebildet.
-
In 3 stellen
die neunzehn vertikalen Linien F0 bis F18 jeweils einen entsprechenden
Frame oder ein Bild in einer Reihe von aufeinander folgenden Bildern
von der Videokamera 12 dar. In 3 stellt
die horizontale Ausdehnung die Zeit dar und die vertikale Ausdehnung
stellt eine Dimension der Bewegung eines Objekts innerhalb eines
zweidimensionalen Bildes dar. Wenn ein Objekt, das vorher nicht anwesend
war, zum ersten Mal erscheint, zum Beispiel bei 51 oder 52,
wird dies als „Eintritt"-Ereignis identifiziert.
Wenn ein Objekt, das vorher anwesend war, als nicht mehr anwesend
erkannt wird, zum Beispiel bei 53 oder 54, wird
dies als „Austritt"-Ereignis bezeichnet.
Wenn sich ein bestehendes Objekt in zwei Objekte aufteilt, von denen
sich eins bewegt und das andere unbeweglich ist, wie zum Beispiel
bei 57, dann wird dies als „Deponieren"-Ereignis bezeichnet. Dies würde beispielsweise
eintreten, wenn eine Person, die eine Aktentasche trägt, diese
auf einem Tisch ablegt und dann weggeht.
-
Wenn
ein sich bewegendes Objekt mit einem unbeweglichen Objekt eins wird
und sich dann weiter bewegt, während
das unbewegliche Objekt verschwindet, wie bei 58, dann
wird dies als „Entfernen"-Ereignis bezeichnet.
Dies entspräche
einer Situation, in der eine Person auf ein Notebook zuläuft, das
auf einem Tisch steht, und dann das Notebook aufnimmt und weggeht.
Drei andere Arten von Ereignissen, die nicht speziell in 3 veranschaulicht sind,
stellen die Ereignisse „Bleiben", „Bewegen" und „Lichtausschalten" dar. Ein Bleiben-Ereignis tritt ein, wenn
ein sich bewegendes Objekt anhält
aber weiterhin anwesend bleibt, ohne sich zu bewegen. Ein praktisches
Beispiel hierfür
stellt eine Situation dar, in der die überwachten Objekte Fahrzeuge
auf einem Parkplatz sind und ein Auto in einen Stellplatz fährt und
danach unbeweglich bleibt. Ein Bewegen-Ereignis tritt ein, wenn
sich ein erfasstes Objekt, das unbeweglich war, erneut bewegt, zum
Beispiel, wenn ein Auto, das geparkt war, sich zu bewegen beginnt.
Ein „Lichtausschalten"-Ereignis tritt ein,
wenn sich das komplette erfasste Bild plötzlich ändert, zum Beispiel, wenn die
Lichter in einem überwachten
Raum ausgeschaltet werden und der Raum dunkel wird. Ein „Lichtausschalten"-Ereignis kann ohne
die komplette Bildverarbeitung erfasst werden, die oben in Zusammenhang
mit den 2 und 3 beschrieben
wurde.
-
Es
ist bei einem Versuch, ein erfasstes Objekt zu identifizieren, optional
auch möglich,
eine Identifizierungsanalyse durchzuführen. Wenn der Arbeitsrechner 13 etwas
Kenntnis über
die Topographie des überwachten
Gebiets hat, kann er die Position des Mittelpunkts der Rahmenunterseite
des Objekts im Bild dafür
verwenden, zu identifizieren, wie weit das Objekt von der Kamera
entfernt ist. Dann kann der Arbeitsrechner 13, wenn er
weiß,
wie groß eine Person
in diesem Abstand von der Kamera wäre, die vertikale Höhe des Rahmens
im Bild auswerten, um festzustellen, ob das Objekt, das die veränderte Region
erzeugt, groß genug
ist, um eine Person zu sein. Wenn das Objekt groß genug ist, um eine Person
zu sein, kann angenommen werden, dass es sich um eine Person handelt.
-
Alternativ
hierzu könnte
der Arbeitsrechner 13 die Endpunkte der Unterseite eines
Rahmens von einem Bild auf einer Karte des betrachteten Schauplatzes
abbilden. Angesichts des Maßstabs
der Karte könnte
der Arbeitsrechner 13 die Entfernung zwischen diesen beiden
Punkten auf der Karte bestimmen, die auch die Entfernung zwischen
den beiden Punkten im Bild wäre,
und somit die Länge
der Rahmenunterseite im Bild wäre.
Der Computer könnte dann
die Höhe
des Rahmens im Bild bestimmen und auswerten, ob das fragliche Objekt
groß genug
ist, um eine Person zu sein. Wenn das Objekt groß genug ist, um eine Person
zu sein, nimmt der Arbeitsrechner 13 wiederum an, dass
es eine Person ist. Dieses Verfahren wird unten weiter beschrieben.
-
Wenn
das Objekt nicht groß genug
ist, um eine Person zu sein, kann der Arbeitsrechner 13 ein Objektanalyseverfahren
durchführen,
indem er das Bild des Objekts analysiert, um zu versuchen, dieses als
eines von mehreren gebräuchlichen
Objekten, wie zum Beispiel eine Aktentasche, ein Notebook, einen
Behälter
oder einen Computerbildschirm zu klassifizieren. Wenn das Objekt
durch diesen Ansatz nicht spezifisch identifiziert werden kann,
wird es schließlich
als ein „unbekanntes" Objekt identifiziert.
-
Um
das Verständnis
eines Aspekts der vorliegenden Erfindung zu ermöglichen, wird nun eine spezifische
exemplarische Anwendungsmöglichkeit für das System 10 aus 1 offenbart.
Man wird jedoch erkennen, dass es zahlreiche andere Anwendungsmöglichkeiten
und Umgebungen gibt, in denen das System 10 aus 1 verwendet
werden könnte. In
Hinblick auf die exemplarische Anwendungsmöglichkeit stellt 4 eine
schematische Draufsicht eines Teils eines Gebäudes, das einen langen Gang 71 mit
einer Nische 72 in der Nähe eines Endes aufweist. Die
Kameraeinheit 12 aus 1 ist stationär direkt
unter der Decke und an einem Ende des Gangs 71 so befestigt,
dass sie den Gang 71 hinunter und leicht nach rechts gerichtet
ist. Die Kameraeinheit 12 kann somit den Gang 71 und
die Nische 72 überwachen.
Am anderen Ende des Gangs 71 mündet dieser in einen weiteren
querlaufenden Gang 73. Noch ein weiterer querlaufender
Gang 74 erstreckt sich nach rechts vom Gang 71 aus
an einer Stelle, die zwischen der Nische 72 und dem Gang 73 liegt. Entlang
der linken Seite des Gangs 71 gibt es drei mit Zwischenräumen angeordnete
Türen 76, 77 und 78. Entlang
der rechten Seite des Gangs 71 befindet sich eine einzelne
Tür 79,
die neben dem Gang 74 und an einer Seite des Gangs 74 liegt,
die sich am nächsten bei
der Kameraeinheit 12 befindet.
-
5 ist
eine schematische Darstellung eines Videobildes, das von der Kameraeinheit 12 in
der Umgebung von 4 erhalten wird und das somit den
Gang 71 und die Nische 72 zeigt. Der Erörterung halber
wird davon ausgegangen, dass das Bild aus 5 als Referenzbild
gespeichert wurde, analog dem Referenzbild, das oben in Zusammenhang
mit 2A erörtert
wurde. 6 ist eine schematische Darstellung eines weiteren
Videobildes von der Kameraeinheit 12, allerdings nachdem
im überwachten Gebiet
ein Objekt 86, das im Referenzbild aus 5 nicht
anwesend war, aufgetaucht ist.
-
In
diesem Fall handelt es sich beim Objekt 86 um eine Person,
die am anderen Ende den Gang 71 betreten hat und dann den
gesamten Gang 71 hinunter zur Nische 72 gegangen
ist. Nachdem die Kameraeinheit das Videobild aus 6 erzeugt
hat, ging die Person 86 weiter den Gang hinunter in Richtung der
Kameraeinheit 12 und danach unter der Kameraeinheit durch,
so dass sie aus dem Sehbereich der Kameraeinheit verschwand. Während der
Zeit, in der sich die Person 86 im Sehbereich der Kameraeinheit 12 befand,
erzeugte die Kameraeinheit eine Folge von Videobildern, wie die
Person den Gang 71 herunterging. Ein ausgewähltes Exemplar
dieser Videobilder ist in 6 abgebildet.
Jedes der Videobilder in dieser Folge von Bildern wurde hinsichtlich
des Referenzbildes aus 5 auf gleiche Weise verarbeitet, wie
oben in Zusammenhang mit 2 beschrieben. In
Zusammenhang mit der Verarbeitung jedes solchen Bildes ermittelt
das System für
jedes Bild einen Rahmen um die veränderte Region, der der Person 86 entspricht.
Der Rahmen für
die Person 86 ist unter 87 im Bild von 6 abgebildet.
-
Der
Bildverarbeitungsabschnitt 27 aus 1 speichert
nicht jedes der zahlreichen Bilder der Person 86 ab, die
man erhält,
während
die Person den Gang 71 hinunter geht. Obwohl einige bekannte
Systeme dies tun, erfordert dies eine erhebliche Menge an Speicher
für die
Speicherung all dieser Videoinformationen. Stattdessen speichert
das System 10 lediglich ausgewählte Informationen, wie unten
erläutert.
-
Genauer
gesagt, hat der Bildverarbeitungsabschnitt 27 bereits das
Referenzbild aus 5 auf dem Festplattenlaufwerk 34 gespeichert.
Im offenbarten Ausführungsbeispiel
wird das Referenzbild aus 5 zunächst einem
Subsampling unterzogen und danach wird die Version des Bildes mit
niedriger Auflösung
auf dem Festplattenlaufwerk 34 gespeichert, um die für jedes
solches Bild erforderliche Menge an Speicherplatz zu verringern.
Das Hauptinteresse gilt Objekten, die in das überwachte Gebiet eintreten,
und nicht dem überwachten
Gebiet selbst, und somit ist ein Bild des überwachten Gebiets mit niedriger
Auflösung
für die
meisten Anwendungen ausreichend.
-
Der
Bildverarbeitungsabschnitt 27 bestimmt für jedes
erfasste Objekt, wie die Person 86, in jedem Bild auch
die kartesischen Koordinaten des Mittelpunkts der Unterseite des
Rahmens dieses erfassten Objekts. Diese Informationen werden auf
dem Festplattenlaufwerk gespeichert. Anders ausgedrückt, wird
für jedes
erfasste Objekt ein kartesisches Koordinatenpaar für dieses
Objekt für
jedes Videobild, in dem das Objekt vorhanden ist, gespeichert. Bezüglich eines
bestimmten Objekts kann die Menge von kartesischen Koordinatenpaaren
für alle
Bilder, in denen das Objekt anwesend war, als Verfolgung der Bewegung
des Objekts innerhalb des überwachten Gebiets
dienen, wie später
ausführlicher
erörtert wird.
-
Der
Bildverarbeitungsabschnitt 27 speichert auch ein ausgewähltes Bild
jedes erfassten Objekts. Im offenbarten Ausführungsbeispiel handelt es sich bei
dem ausgewählten
Bild lediglich um einen Teil des gesamten Bildes von der Videokamera 23.
Konkret handelt es sich um den Teil des Bildes, der sich innerhalb
des Rahmens für
das Objekt von Interesse befindet. Somit wäre dies, wenn das ausgewählte Bild
für die
Person 86 vom Videobild aus 6 abgeleitet
wäre, der
Bereich dieses Bildes, der sich innerhalb des Rahmens 87 befindet.
Dieses ausgewählte Bild
oder dieser ausgewählte
Bildteil wird in voller Auflösung
gespeichert, um eine Ansicht des erfassten Objekts in erstklassiger
Qualität
zu haben. Der Grund dafür
liegt darin, dass häufig
eine Ansicht in erstklassiger Qualität zu einem späteren Zeitpunkt von
Nutzen ist, zum Beispiel, um die Identifizierung einer bestimmten
Einzelperson zu ermöglichen.
Da das ausgewählte
Bild lediglich einen Teil des gesamten Videobildes darstellt, ist
der Speicherplatz, der für die
Speicherung des ausgewählten
Bildes in voller Auflösung
benötigt
wird, häufig
niedriger, als der Speicherplatz, der für die Speicherung des gesamten Videobilds
in verringerter Auflösung
benötigt
würde.
-
Die
Auswahl des bestimmten zu speichernden Bildes ist eine automatische
Bestimmung, die durch einfache Heuristik getroffen wird. Bei den
meisten Anwendungen handelt es sich bei den Objekten, die von primärem Interesse
sind, um Menschen und es ist daher wünschenswert, dass die Auswahl
eines Bildes favorisiert wird, auf dem die Person im Allgemeinen
zur Kameraeinheit 12 schaut und angemessen nahe an der
Kameraeinheit 12 ist. In dieser Hinsicht wird angenommen,
dass sich die Person mit dem Gesicht nach vorne in Richtung der
Kamera bewegt, wenn sich die Rahmenunterseite in aufeinander folgenden
Bildern nach unten bewegt. Auf der anderen Seite wird, wenn sich
die Rahmenunterseite nicht nach unten oder nach oben bewegt, trotzdem die
neue Ansicht einer vorherigen Ansicht bevorzugt, wenn das Objekt
größer erscheint,
wie es durch eine Erhöhung
der vertikalen Größe des Rahmens
widergespiegelt wird.
-
Somit
speichert der Bildverarbeitungsabschnitt 27, wenn ein Objekt,
wie zum Beispiel eine Person, zum ersten Mal auftaucht, temporär das erste
Videobild, das die Person enthält,
und bestimmt dieses Bild vorläufig
als ausgewähltes
Bild. Danach überprüft der Bildverarbeitungsabschnitt 27 bei
jedem nachfolgenden Bild, ob die Unterseite des Rahmens im aktuellen
Bild niedriger als die Unterseite des Rahmens im vorläufig ausgewählten Bild
ist. Wenn dies der Fall ist, wird das vorherige Bild verworfen und
das aktuelle Bild wird vorläufig
als ausgewähltes
Bild bestimmt.
-
Andererseits überprüft der Bildverarbeitungsabschnitt 27,
wenn die Unterseite des Rahmens des Objekts die gleiche vertikale
Position im aktuellen Bild wie im vorläufig ausgewählten vorherigen Bild hat,
ob die vertikale Höhe
des Rahmens im aktuellen Bild größer als
die vertikale Höhe
des Rahmens im vorläufig
ausgewählten
Bild ist. Wenn dies zutrifft, wird das vorherige Bild verworfen
und das aktuelle Bild wird vorläufig
als ausgewähltes
Bild bestimmt.
-
Wenn
das Objekt schließlich
das überwachte Gebiet
verlässt,
nimmt der Bildverarbeitungsabschnitt 27 das vorläufig ausgewählte Videobild
und speichert den Teil dieses Videobildes auf dem Festplattenlaufwerk 34,
der sich innerhalb des Rahmens befindet. Wie oben erörtert, wird
dieser Teil des Bildes in voller Auflösung gespeichert.
-
Obwohl
das offenbarte Ausführungsbeispiel obige
Auswahlkriterien anwendet, um Nahaufnahmen von Gesichtern von Menschen
zu favorisieren, leuchtet ein, dass andere Anwendungsmöglichkeiten andere
Auswahlkriterien erfordern können.
Wenn zum Beispiel die Kameraeinheit 12 für die Überwachung
von Fahrzeugen verwendet würde
und es wünschenswert
wäre, Nahaufnahmen
der hinteren Nummernschilder dieser Fahrzeuge zu favorisieren, so
könnten
die Auswahlkriterien so angepasst werden, dass dies erreicht wird.
-
Im
Zusammenhang mit jedem erfassten Objekt speichert der Bildverarbeitungsabschnitt 27 auf dem
Festplattenlaufwerk 34 auch bestimmte andere Informationen,
einschließlich
einer vom Menschen lesbaren Zeitmarke, die das Datum und die Zeit
anzeigt, wann das Objekt erfasst wurde, wobei der Name der Plattendatei
das Referenzbild enthält,
das verwendet wurde, als das Objekt im überwachten Gebiet anwesend
war, und ein Schlüsselwort,
das anzeigt, wie das Objekt in das überwachte Gebiet eintrat. Hinsichtlich
letzterem sind die erlaubten Schlüsselwörter im offenbarten Ausführungsbeispiel „Eintritt", „Deponieren" und „Sonstiges", aber es leuchtet
ein, dass zusätzliche
Schlüsselwörter oder weniger
Schlüsselwörter erlaubt
sein können.
-
Mit
der Zeit kann sich der Hintergrund im überwachten Gebiet ändern. So
kann sich das Umgebungslicht durch Variationen des Sonnenlichts, das
durch Fenster eintritt, durch Öffnen
und Schließen
von Fensterläden,
durch Öffnen
und Schließen von
Türen im
Inneren, durch Anschalten und Ausschalten von Innenlicht usw. ändern. Auf ähnliche Weise
können
Leute Objekte im überwachten
Gebiet deponieren, entfernen oder umstellen. Jede derartige Änderung
schafft eine permanent veränderte
Region zwischen dem Referenzbild und jedem aktuellen Videobild.
Ohne ein regelmäßig aktualisiertes
Referenzbild fährt
das System damit fort, diese Unterschiede oder veränderten
Regionen als erfasste Objekte zu verfolgen. Änderungen des Lichts würden somit
als erfasste Objekte behandelt werden, wodurch Bilder gespeichert
würden,
die nicht wirklich von Interesse sind und lediglich Speicher auf
dem Festplattenlaufwerk 34 vergeuden.
-
Um
dies zu verhindern, überprüft der Bildverarbeitungsabschnitt 27 auf
eine Situation, in der sich im überwachten
Gebiet während
einer bestimmten Zeitspanne, zum Beispiel zwanzig Sekunden, nichts verändert hat.
In Reaktion auf die Erkennung dieser Situation beendet der Bildverarbeitungsabschnitt 27 die
Verfolgung aller erfassten Objekte, die aktiv verfolgt wurden, speichert
das aktuelle Videobild als neues Referenzbild und fährt dann
mit der Überwachung
des überwachten
Gebietes unter Verwendung des neuen Referenzbildes fort. Im Allgemeinen
bleiben Menschen fast niemals länger
als eine oder zwei Sekunden vollständig ruhig stehen und somit
ist das Risiko, dass ein Videobild, auf dem sich ein Mensch befindet,
als Referenzbild ausgewählt
wird, gering.
-
Unter
Bezugnahme auf 1 wurde der Bildverarbeitungsabschnitt 27 der
Kameraeinheit 12 so gestaltet, dass er mit dem Internet
kompatibel ist, und insbesondere kompatibel mit Internetstandards, die
allgemein als World Wide Web (WWW) bekannt sind. Folglich kann die
Kameraeinheit 12 direkt mit dem Netzwerk 14 gekoppelt
werden und eine Person, die einen Web-Browser auf einer entfernten
Einheit, wie zum Beispiel dem Arbeitsrechner 13, verwendet,
kann auf die oben erörterten
gespeicherten Informationen zugreifen und diese ansehen. Um dies zu
bewerkstelligen, speichert der Bildverarbeitungsabschnitt 27 die
Resultate seiner Überwachungsaktivitäten auf
dem Festplattenlaufwerk 34 auf eine An, die nun unter Bezugnahme
auf 7 beschrieben wird.
-
Genauer
gesagt, zeigt 7 die Verzeichnisorganisierung
eines Teils des Festplattenlaufwerks 34. In 7 sind
die rechteckigen Kästchen 91 bis 96 jeweils
eine schematische Darstellung eines entsprechenden Verzeichnisses.
Diese Verzeichnisse speichern die Informationen, die sich auf Überwachungsaktivitäten des
Bildverarbeitungsabschnitts 27 beziehen. Das Verzeichnis 91 ist
ein Unterverzeichnis eines nicht abgebildeten Stammverzeichnisses,
die Verzeichnisse 92 bis 94 sind Unterverzeichnisse
des Unterverzeichnisses 91 und die Verzeichnisse 95 und 96 sind
Unterverzeichnisse des Verzeichnisses 94.
-
Das
Unterverzeichnis 91 enthält eine Datei MASTER.HTML und
die Unterverzeichnisse 92 und 93 enthalten jeweils
eine entsprechende Datei namens LOGLIST.HTML. Die Dateien MASTER.HTML und
LOGLIST.HTML sind jeweils WWW-kompatible Dateien im Format Hypertext
Markup Language (HTML) und sie ermöglichen den Zugang zu anderen Informationen,
die in der Verzeichnisstruktur aus 7 gespeichert
sind. Die Datei MASTER.HTML weist Hypertext-Verknüpfungen
auf jede der LOGLIST.HTML-Dateien auf, und die LOGLIST.HTML-Dateien
sind jeweils HTML-Shells, die ein Applet aufrufen, das den Zugang
zu Dateien ermöglicht,
die sich in dem Verzeichnis befinden, das die bestimmte LOGLIST.HTML-Datei
enthält.
-
Das
Verzeichnis 92 entspricht einem einzelnen Tag, an dem die
Kameraeinheit 12 aus 1 in Betrieb
war. Wenn die Kameraeinheit 12 erstmals mit der Überwachung
eines bestimmten Gebiets beginnt, existiert das Unterverzeichnis 91,
aber die Unterverzeichnisse 92 und 93 existieren
nicht. Während
des ersten Tages der Überwachung
erstellt der Bildverarbeitungsabschnitt 27 das Unterverzeichnis 92 und verwendet
dieses für
die Speicherung von Informationen bezüglich der Überwachungsaktivitäten dieses Tages.
Zu Anfang jedes folgenden Überwachungstages
erstellt der Bildverarbeitungsabschnitt 27 ein ähnliches
Unterverzeichnis, von denen eins unter 93 abgebildet ist.
Der Name jedes solchen Unterverzeichnisses folgt dem Format MM.TT.JJ
und identifiziert den Monat, den Tag und das Jahr, für den das Verzeichnis
Informationen enthält.
-
Jedes
der Unterverzeichnisse 92 und 93 enthält die oben
erwähnte
Datei LOGLIST.HTML. Außerdem
enthält
jedes solche Unterverzeichnis eine LOGLIST-Datei, die eine zusammenfassende
Liste darstellt, die alle Log-Einträge des fraglichen Tages identifiziert,
wobei jeder Log-Eintrag einem entsprechend erfassten Objekt entspricht.
Jedes Unterverzeichnis enthält
für jeden
Log-Eintrag in seiner LOGLIST-Datei auch eine separate Datei mit
dem Namensformat ENTRYX, wobei X für eine ganze Zahl steht. Jede
ENTRYX-Datei enthält
Einzelheiten bezüglich
des bestimmten erfassten Objekts, einschließlich des Namens der Datei,
die das Referenzbild enthält,
das gültig
war, als das Objekt anwesend war, des Schlüsselworts, das anzeigt, wie
das Objekt den Schauplatz betrat, der Reihe von kartesischen Koordinatenpaaren,
die den Bewegungspfad des Objekts innerhalb des Bildes verfolgen,
des ausgewählten
Bildes des Objekts in einem Bildformat mit voller Auflösung und
zweier kartesischer Koordinatenpaare, die jeweils die Position zweier
gegenüberliegenden
Ecken des Rahmens des ausgewählten Bildes
im Videobild identifizieren.
-
Die
zusammenfassenden Informationen in der LOGLIST-Datei enthalten zwei
Elemente für
jedes erfasste Objekt, nämlich
eine Zeitmarke, die das Datum und die Zeit der Erfassung des entsprechenden
Objekts darstellt, und den Namen der ENTRYX-Datei, die Einzelheiten über dieses
erfasste Objekt enthält.
Im offenbarten Ausführungsbeispiel
liegen diese Informationen in der LOGLIST-Datei in ASCII-Format vor.
-
Die
in 7 unter 95 und 96 abgebildeten Unterverzeichnisse
entsprechen jeweils einem bestimmten Tag und sie enthalten alle
Referenzbilder, die während
dieses Tages verwendet wurden. Genauer gesagt, wenn die Kameraeinheit 12 erstmals mit
der Überwachung
eines ausgewählten
Gebiets beginnt, existiert das Unterverzeichnis 94, aber
die Unterverzeichnisse 95 und 96 existieren noch
nicht.
-
Während des
ersten Tages der Überwachung
wird das Unterverzeichnis 95 erstellt und dieses wird für die Speicherung
aller Referenzbilder dieses Tages verwendet. Zu Anfang jedes folgenden Überwachungstages
wird ein neues Unterverzeichnis erstellt, von denen eins unter 96 abgebildet
ist.
-
Jedes
dieser Unterverzeichnisse 95 und 96 weist ein
Namensformat MM.TT.JJ auf, das das Datum darstellt, das den in diesem
Unterverzeichnis gespeicherten Informationen entspricht. Jedes dieser Unterverzeichnisse 95 und 96 enthält eine
Mehrzahl an Dateien mit dem Namensformat REFIMGXX.PGM, wobei XX
für eine
eindeutige ganze Zahl steht. Jede REFIMGXX.PGM-Datei enthält ein entsprechendes
Referenzbild. Jedes Mal, wenn während
des Tages ein neues Referenzbild gespeichert wird, wird eine neue
REFIMGXX.PGM-Datei erstellt die unter Verwendung der nächst höheren nicht
verwendeten ganzen Zahl XX benannt wird.
-
8 ist
eine schematische Darstellung der Anzeige 21 aus 1,
wenn ein Bediener den Arbeitsrechner 13 verwendet, um Informationen
zu überwachen,
die vom Bildverarbeitungsabschnitt 27 auf dem Festplattenlaufwerk 34 gespeichert
werden. In 8 verwendet der Bediener einen
Web-Browser, der unter dem Handelsnamen NETSCAPE von Netscape Communications
Corporation aus Mountainview, California, verkauft wird. Man wird
jedoch erkennen, dass alternativ hierzu auch ein gleichwertiger
anderer Web-Browser verwendet werden könnte. In 8 hat
der Anwender die WWW-Fähigkeiten des
Internets aufgerufen, um auf die WWW-kompatible Datei MASTER.HTML
im Verzeichnis 91 (7) zuzugreifen,
die wiederum die verschiedenen LOGLIST.HTML-Dateien in den Unterverzeichnissen 92 und 93 verwendet
hat, um auf Informationen in jeder der entsprechenden LOGLIST-Dateien
zuzugreifen. Optional kann die Datei MASTER.HTML von einem Bediener
erfordern, ein gültiges
Passwort zu liefern, bevor der Bediener Zugriff auf die auf dem
Festplattenlaufwerk 34 gespeicherten Informationen erhält.
-
Ganz
oben auf der angezeigten Webseite befindet sich ein Titel 101,
der von der Datei MASTER.HTML geliefert wird und die bestimmte Installation
oder Anwendung widerspiegelt. Entlang der linken Seite der Webseite
befindet sich ein Bildlauffeld 102, in dem die Dateien
MASTER.HTML und LOGLIST.HTML eine Liste der Zeitmarken aus allen
LOGLIST-Dateien anzeigen, wobei jede Zeitmarke jeweils sowohl ein
Datum als auch eine Zeit beinhaltet. Vertikale und horizontale Bildlaufleisten 103 und 104 werden
bereitgestellt, wenn die Anzahl an Zeitmarkeneinträgen oder
die Länge
eines einzelnen Zeitmarkeneintrags größer ist, als auf einmal im
Bildlauffeld 102 angezeigt werden kann. Der Bediener hat
im Bildlauffeld 102 einen Eintrag hervorgehoben, der einem
erfassten Objekt entspricht, das zur angegebenen Zeit am 15. Februar
1997 anwesend war.
-
Rechts
vom Bildlauffeld 102 werden Informationen aus der ENTRYX-Datei
angezeigt, die dem ausgewählten
Log-Eintrag entsprechen. Genauer gesagt, wird ein Videobild 111 dargestellt,
das das Ereignis darstellt, das oben in Zusammenhang mit den 5 und 6 erläutert wurde,
nämlich
die Erfassung und Verfolgung der Person 86. Das Bild 111 wird
erstellt, indem zunächst
die REFIMGXX.PGM-Datei, die dem ausgewählten Log-Eintrag 107 entspricht,
abgerufen und angezeigt. Dann wird das ausgewählte Bild, das dem Log-Eintrag 107 entspricht,
von der ENTRYX-Datei abgerufen, einem Subsampling unterzogen, damit
es dieselbe Auflösung
wie das Referenzbild erhält,
und an Stelle des entsprechenden Teils des Referenzbildes angezeigt. Danach
wird der dem ausgewählten
Bild zugehörige Rahmen 87 im
Bild 111 eingeblendet.
-
Dann
wird unter Verwendung der Reihe von kartesischen Koordinatenpaaren,
die in der entsprechenden ENTRYX-Datei gespeichert sind, eine Spur 113 der
Bewegung des erfassten Objekts im Bild 111 eingeblendet.
Wie oben erläutert
stellt die Spur 113 die Bewegung des Mittelpunkts der Unterseite
des Rahmens 87 dar und spiegelt somit genau den Weg, den
die Person 86 zurückgelegt
hat, wider. Dann werden Beschriftungen im Bild 111 eingeblendet,
wie bei 116 und 117, die auf den Informationen
basieren, die in der ENTRYX-Datei gespeichert sind. In 8 ist die
Beschriftung 116 das Wort „Eintritt", das anzeigt, dass die Person 86 in
das überwachte
Gebiet an ungefähr
der Stelle dieser Beschriftung eintrat, oder anders ausgedrückt, am
hinteren Ende des Gangs 71. Die Beschriftung 117 ist
das Wort „Austritt", das anzeigt, wo
die Person 86 aus dem überwachten
Gebiet austrat, in diesem Fall durch Weitergehen nach unten den
Gang 71 entlang und unter der Kameraeinheit 12 hindurch.
Der Rahmen 87, die Spur 113 und/oder die Beschriftungen 116 und 117 können optional
in einer oder mehreren unterschiedlichen Farben angezeigt werden,
damit sie besser sichtbar sind.
-
Auf
der rechten Seite des Bildlauffeldes 102 und unterhalb
des Bildes 111 zeigt der Bildverarbeitungsabschnitt 27 ein
weiteres Bild 121 an, das kleiner als das Bild 111 ist.
Das Bild 121 entspricht dem Teil des Bildes 111 innerhalb
des Rahmens 87, aber es wird mit voller Auflösung und
nicht mit der niedrigeren Auflösung
angezeigt, die für
das größere Bild 111 verwendet
wird. Somit sind die Gesichtszüge
dieser Person, wenn ein Versuch unternommen wird, eine bestimmte
Person zu identifizieren, unter Umständen im Bild mit hoher Auflösung 121 klarer
ersichtlich, als im Bild mit verringerter Auflösung 111. Da das gespeicherte
Bild 121 unter Anwendung der oben erörterten Kriterien ausgewählt wurde,
die dafür ausgelegt
sind, Nahaufnahmen von Gesichtern von Menschen zu favorisieren,
wird man erkennen, dass das Gesicht der Person 86 sichtbar
ist und dass die Person sich näher
an der Kamera befindet, als es der Fall gewesen wäre, wenn
das System einfach das erste Bild, in dem die Person 86 erfasst
worden war, ohne den Versuch gespeichert hätte, irgendwelche Auswahlkriterien
anzuwenden.
-
9 ist ähnlich wie 8 eine
schematische Darstellung, die aber eine unterschiedliche Web-Seite
zeigt, die von der MASTER.HTML-Datei geliefert wird. Diese Web-Seite
enthält
ein Bild 131, das das aktuelle Referenzbild darstellt,
zum Beispiel das in 5 abgebildete Referenzbild.
Der Anwender kann dann eine Maus verwenden, um eine oder mehrere
Regionen zu identifizieren, zum Beispiel die Region 132.
Der Anwender kann die Region definieren, indem er den Mauszeiger
verwendet, um die Ecken der Region zu identifizieren, während er
auf jede Ecke klickt. Jedes Mal, wenn der Anwender eine Region definiert,
wird diese automatisch mit einer Beschriftung versehen, die einen
Buchstaben darstellt. Die Region 132 in 9 wurde
zum Beispiel mit der Beschriftung „A" versehen. Wie oben erörtert, behält der Bildverarbeitungsabschnitt 27 eine
Historie der Bewegung des Mittelpunkts der Unterseite des Rahmens
jedes Objekts bei. Wenn dieser Mittelpunkt für eine vorher festgelegte Zeit
innerhalb einer bestimmten Region verbliebe, wie zum Beispiel in
der Region 132, könnte
dies ein Herumlungern darstellen und durch den Bildverarbeitungsabschnitt 27 erfasst
werden.
-
Die
Web-Seite aus 9 enthält auch einen Ereignis-Auswahlkasten 136,
den der Bediener dafür verwenden
kann, anzugeben, dass der Bildverarbeitungsabschnitt 27 auf
ein bestimmtes Ereignis überprüfen soll,
und um anzugeben, welche Aktion durchgeführt werden soll, wenn das spezifizierte
Ereignis eintritt. In dieser Hinsicht kann der Bediener eine Maus
dafür verwenden,
um eines von mehreren im Kasten 136 identifizierten Ereignissen
auszuwählen, einschließlich folgender
Ereignisse: Eintritt, Austritt, Herumlungern, Deponieren, Entfernen,
Bewegen, Bleiben und Lichtausschalten. Der Ereignis-Auswahlkasten 136 ermöglicht es
dem Anwender, optional die Überwachung
des spezifizierten Ereignisses auf bestimmte Arten von erfassten
Objekten zu beschränken,
einschließlich
einer Person, einer Schachtel, einer Aktentasche, eines Notebooks,
eines Computermonitors, jeder Objektart oder nur eines unbekanntes Objekt.
Der Ereignis-Auswahlkasten 136 ermöglicht es dem Anwender auch,
das Überwachungsereignis auf
eine bestimmte Region zu begrenzen, indem deren Beschriftungsbuchstabe
identifiziert wird, wie zum Beispiel die Region 132, die
durch den Beschriftungsbuchstaben „A" identifiziert wird.
-
Für bestimmte
Ereignisse gestattet es der Ereignis-Auswahlkasten 136 dem
Anwender, eine Zeitdauer in Sekunden anzugeben. Wenn der Anwender
das System zum Beispiel anweist, auf ein Herumlungern-Ereignis in
einer bestimmten Region zu überwachen,
kann der Anwender angeben, dass das Herumlungern-Ereignis nur erfasst werden soll, wenn
das spezifizierte Objekt in der spezifizierten Region für eine Dauer
von mindestens fünf
Sekunden verweilt. Der Ereignis-Auswahlkasten 136 gestattet
es dem Bediener auch, die Aktion zu bestimmen, die durchzuführen ist,
wenn das spezifizierte Ereignis eintritt, einschließlich eines
hörbaren
Pieptons, der Erstellung eines Log-Eintrags auf dem Festplattenlaufwerk 34,
eines Pop-Up-Fensters auf der Anzeige 21 des Arbeitsrechners 13 oder
einer künstlich
hergestellten Sprachdurchsage, die anzeigt, dass das Ereignis von
Interesse eingetreten ist, wie zum Beispiel eine künstlich
hergestellte Durchsage des Worts „Herumlungern". Man wird erkennen,
dass der Ereignis-Auswahlkasten 136 so modifiziert werden
könnte,
dass er die Identifizierung von anderen Ereignissen, Objekten, Bedingungen
oder Aktionen ermöglicht.
Die Aktionen könnten
zum Beispiel auch beinhalten, einen Telefonanruf an eine bestimmte Nummer,
beispielsweise die Nummer einer Sicherheitsagentur, zu tätigen oder
eine E-Mail-Mitteilung an eine bestimmte E-Mail-Adresse zu senden.
-
Dieser
Aspekt der vorliegenden Erfindung bietet eine Reihe von technischen
Vorteilen. Ein solcher Vorteil ist es, dass auf Grund der regelmäßigen Speicherung
von Referenzbildern, der Speicherung dieser Referenzbilder in verringerter
Auflösung,
der Speicherung lediglich ausgewählter
Bilder von Objekten, die von Interesse sind, und der Speicherung lediglich
von Teilen des gesamten Bildes die für die Speicherung von Bildern
benötigte
Speichermenge im Vergleich zu bekannten Systemen erheblich verringert
wird. Ein damit verbundener Vorteil ist es, dass die Menge an gespeicherten
Informationen, die ein Bediener in Reaktion auf das Eintreten eines
Ereignisses überprüfen müsste, im
Vergleich zu bekannten Systemen erheblich verringert wird. Ein weiterer
Vorteil ist es, dass die verfügbaren
Informationen mit Zeitmarkeninformationen geliefert werden, so dass
ein Bediener schnell die Ereignisse von Interesse in einem Zeitrahmen
von Interesse identifizieren kann und diese Ereignisse schnell und
leicht überprüfen kann.
-
Noch
einen weiteren Vorteil stellt die Speicherung einer Spur dar, die
die Bewegung eines erfassten Objekts widerspiegelt, wodurch später ein leicht
verständliches
sichtbares Bild der Bewegung des Objekts geliefert werden kann,
ohne dass zahlreiche Videobilder gespeichert werden, die dem gesamten
Zeitraum entsprechen, in dem das erfasste Objekt in einem überwachten
Gebiet anwesend war. Ein weiterer Vorteil ist es, dass die Verwendung
eines Web-Browsers für
den Zugang der vom System protokollierten Informationen es einer
Person gestattet, auf die Informationen von so gut wie jedem Ort,
an dem ein Computer zur Verfügung
steht, zuzugreifen, einschließlich
eines WWW-kompatiblen Mobiltelefons.
-
Ein
weiterer Vorteil ergibt sich aus der Tatsache, dass die Auswahl
eines zu speichernden Bildes auf Kriterien basiert, die dafür ausgelegt
sind, das Bild zu optimieren, zum Beispiel durch eine hohe Wahrscheinlichkeit,
dass eine erfasste Person zur Kamera schaut und nahe an der Kamera
ist. Ein weiterer Vorteil ist es, dass das offenbarte System eine eigenständige Kameraeinheit
sein kann, die WWW-kompatibel ist. Ein weiterer Vorteil ist es,
dass das offenbarte System verlässlicher
als bestimmte bekannte Technologien ist, wie zum Beispiel bekannte
Systeme, die einen Videorekorder (VCR) aufweisen, der mechanischen
Fehlern unterliegt und der Köpfe
umfasst, die regelmäßig gereinigt
werden müssen.
-
Um
ein Verständnis
eines zweiten Aspekts der vorliegenden Erfindung zu ermöglichen,
wird nun des Weiteren eine spezifische exemplarische Anwendungsmöglichkeit
des Systems 10 aus 1 offenbart.
Man wird jedoch erkennen, dass es zahlreiche andere Anwendungsmöglichkeiten
und Umgebungen gibt, in denen das System 10 aus 1 verwendet
werden könnte.
In Hinblick auf die exemplarische Anwendungsmöglichkeit stellt 10 eine schematische
Draufsicht eines Teils eines Raumes 171 in einem Gebäude dar,
einschließlich
dreier Wände 172, 173 und 174.
Die Wand 172 ist an einer Stelle, die sich nahe der Wand 173 befindet,
mit einer Türe 177 versehen,
die nach innen in den Raum 171 schwingt, wenn sie geöffnet wird.
Der Raum ist mit drei Tischen 181 bis 183 ausgestattet,
wobei der Tisch 181 an die Wand 173 angrenzt,
der Tisch 182 an die Wand 174 grenzt und der Tisch 183 mit
einer Seite an die Wand 174 grenzt. Die Videokamera 12 ist
an der Wand 172 angebracht und ist auf die Ecke des Raumes
gerichtet, die durch die Schnittstelle der Wände 173 und 174 definiert
ist.
-
11 ist
eine schematische Darstellung eines Videobildes, das von der Videokamera 12 in
der Umgebung aus 10 erhalten wurde und das somit die Türe 177 und
Teile der Wände 173 und 174 zeigt. Das
Bild aus 11 zeigt auch die Tische 181 und 182 und
einen Teil des Tischs 183. Der Erörterung halber wird angenommen,
dass das Bild aus 11 als Referenzbild gespeichert
wurde, analog dem Referenzbild, das oben in Zusammenhang mit 2A erörtert wurde.
-
12 ist
eine schematische Darstellung eines Teils des Bildschirms der Anzeige 21 (1).
Auf der linken Seite befindet sich ein Bild 184, das in 12 das
Referenzbild ist, das in 11 abgebildet ist.
Auf der rechten Seite befindet sich eine Karte 185, die
ein digitalisiertes Bild der Draufsicht des Raumes 171 aus 10 darstellt.
Im offenbarten Ausführungsbeispiel
wurde das Bild 185 in den Computer unter Verwendung eines
nicht abgebildeten Scanners eingelesen, um eine Blaupause oder eine Zeichnung
zu digitalisieren. Der Arbeitsrechner 13 erkennt keine
physischen Strukturen innerhalb der Karte 185, wie zum
Beispiel die Wände 171 bis 174 oder
die Tische 181 bis 183. Stattdessen erkennt der Arbeitsrechner 13 die
Karte 185 einfach als zweidimensionales Bild, das durch
eine Pixelmatrix definiert wird.
-
Das
Videobild 184 und die Karte 185 sind somit für den Arbeitsrechner 13 nur
entsprechende Pixelmatrizen. Um dem Computer eine Grundlage für deren
gegenseitige Beziehung zu liefern, wird zwischen dem Bild 184 und
dem Bild 185 eine Abbildung auf folgende Art etabliert.
Mit Bezug auf 12 verwendet ein Bediener die
Maus 19 (1), um eine oder mehrere vierseitige
Regionen sowohl auf dem Bild 184 als auch auf der Karte 185 zu
definieren. Jede vierseitige Region wird dafür verwendet, eine nach oben
zeigende Oberfläche,
die eine Person oder ein Objekt tragen kann, wie zum Beispiel den Boden
oder die Oberfläche
eines Tisches, zu kennzeichnen.
-
Der
Bediener kann zum Beispiel zunächst eine
vierseitige Region 186 auf dem Bild 184 aus 12 zeichnen.
Die vierseitige Region 186 entspricht so gut wie dem ganzen
Boden, der im Bild 184 sichtbar ist. Der Bediener kann
die vierseitige Region 186 dadurch zeichnen, dass er mit
der Maus auf ausgewählte
Punkte auf dem Bild 184 klickt, um die vier Ecken der vierseitigen
Region zu definieren. Ein Umriss der vierseitigen Region 186 wird
im angezeigten Bild 184 eingeblendet. In 12 ist
der Umriss der vierseitigen Region 186 durch eine gestrichelte
Linie dargestellt, aber es könnte
auch eine durchgezogene Linie verwendet werden, und/oder er könnte in
Farbe angezeigt werden, damit er auf dem Grauskalabild 184 leicht
sichtbar ist.
-
Der
Bediener ordnet dann der vierseitigen Region 186 eine Beschriftung
zu, die in 12 der Buchstabe „A" ist, der in der
Mitte der vierseitigen Region 186 abgebildet ist. Alternativ
hierzu hätte
der Bediener den Namen „BODEN" für die vierseitige
Region 186 verwenden können,
da sie einen Teil des Bodens darstellt. Dann zeichnet der Bediener
so genau wie möglich
auf der Karte 185 eine entsprechende vierseitige Region 187,
die genau denselben Teil des Bodens darstellt. Obwohl die vierseitigen
Regionen 186 und 187 denselben Teil des Bodens
darstellen, weisen sie auf Grund der Tatsache, dass das Bild 184 eine
perspektivische Ansicht des Raumes und die Karte 185 eine
Draufsicht ist, unterschiedliche Größen und Formen auf. Der Bediener
versieht die vierseitige Region 187 mit derselben Beschriftung „A", die für die vierseitige
Region 186 verwendet wurde, damit der Arbeitsrechner 13 erkennt,
dass sich die vierseitigen Regionen 186 und 187 einander
entsprechen. Nachdem eine vierseitige Region gezeichnet wurde, gestattet
es der Arbeitsrechner 13 dem Bediener, die Form und/oder
die Größe der vierseitigen
Region anzupassen, beispielsweise indem er die Maus 19 zum
Ziehen und Ablegen einer Seite oder einer Ecke der vierseitigen
Region verwendet.
-
Auf ähnliche
Weise kann der Bediener zusätzliche
Paare vierseitiger Regionen zeichnen. In 12 hat
der Bediener zum Beispiel eine vierseitige Region 188 auf
dem Bild 184 gezeichnet, die die Oberfläche des Tischs 181 bezeichnet,
und er hat eine entsprechende vierseitige Region 189 auf
der Karte 185 gezeichnet. Der Bediener hat diese beiden verwandten
vierseitigen Regionen mit der Beschriftung „B" versehen. Ferner hat der Bediener die
zugehörigen
vierseitigen Regionen 191 und 192 gezeichnet,
um die Oberfläche
des Tischs 182 zu kennzeichnen, und er hat beide mit der
Beschriftung „C" versehen. Außerdem hat der
Bediener auf dem Bild 184 eine vierseitige Region 193 gezeichnet,
die den Teil der Oberfläche
des Tischs 183 darstellt, der im Bild 184 sichtbar
ist, und er hat eine entsprechende vierseitige Region 194 auf
der Karte 185 gezeichnet. Die vierseitigen Regionen 193 und 194 wurden
mit der gemeinsamen Beschriftung „D" versehen.
-
Für jedes
vom Bediener gezeichnete Paar sich entsprechender vierseitiger Regionen
legt der Arbeitsrechner 13 eine Warp-Transformation an,
die eine bekannte mathematische Technik anwendet und die einen ausgewählten Punkt
in einer der vierseitigen Regionen des Paars in einen entsprechenden Punkt
in der anderen vierseitigen Region des Paars überträgt. Um es dem System zu ermöglichen,
diese Warp-Transformation zu bestimmen, muss der Arbeitsrechner 13 wissen,
welche Seite einer bestimmten vierseitigen Region im Bild 184 welcher
Seite einer zugehörigen
vierseitigen Region auf der Karte 185 entspricht. Im offenbarten
Ausführungsbeispiel gestattet
es der Arbeitsrechner 13 dem Bediener, die Position der
Kamera 12 auf der Karte 185 zu identifizieren.
Der Arbeitsrechner 13 ordnet dann automatisch die Seite
einer vierseitigen Region, die sich im Bild 184 ganz unten
befindet, der Seite der entsprechenden vierseitigen Region auf der
Karte 185 zu, die sich am nächsten bei der Kamera 12 befindet.
Es wäre
jedoch alternativ hierzu auch möglich,
vom Bediener zu verlangen, dass er zusammengehörige Seiten der vierseitigen
Regionen jedes Paares manuell identifiziert, zum Beispiel, indem
er die Maus 19 verwendet, um auf eine ausgewählte Seite
einer vierseitigen Region zu klicken, und dann mit der Maus auf
die entsprechende Seite der anderen vierseitigen Region zu klicken.
-
Obwohl
sich die aktuelle Erörterung
auf die Verwendung von vierseitigen Regionen bezieht, wird man erkennen,
dass ebenfalls Umrisse von anderen Formen verwendet werden könnten. Ein
Umriss könnte
zum Beispiel die Form eines anderen beliebigen Vielecks oder eines
Kreises aufweisen oder es könnte
sich um einen unregelmäßigen Umriss
handeln, vorausgesetzt, dass eine geeignete Warp-Transformation
bereitgestellt wird, um jeden Punkt in einer Region mit einem Punkt
in der entsprechenden Region zu verbinden.
-
Manchmal
kann es der Bediener für
notwendig erachten, vierseitige Regionen zu zeichnen, die sich überlappen.
In 12 überlappt
beispielsweise die vierseitige Region 193, die die Oberseite
des Tischs 183 darstellt, einen Teil der vierseitigen Region 186,
die den Boden des Raumes kennzeichnet. Für den Fall, dass sich ein bestimmter
Punkt im Bild 184 in beiden dieser vierseitigen Regionen
befindet, muss der Arbeitsrechner 13 wissen, ob er den
Punkt vom Bild 184 auf der Karte 185 abbilden
soll, indem er die Warp-Transformation für die vierseitigen Regionen 193 und 194 verwendet,
oder die Warp-Transformation für
die vierseitigen Regionen 186 und 187. Daher muss
der Arbeitsrechner 13 immer, wenn sich zwei vierseitige
Regionen im Bild 184 überlappen, wissen,
welche der vierseitigen Regionen eine höhere Priorität im Vergleich
zur anderen erhalten soll.
-
Im
offenbarten Ausführungsbeispiel
nimmt der Arbeitsrechner 13 automatisch an, dass die kleinste
vierseitige Region Priorität
besitzt. Im Bild 184 aus 12 hätte die
vierseitige Region 193 somit Priorität über die vierseitige Region 186.
Anders ausgedrückt,
wenn ein bestimmter Punkt in die Überlappung der vierseitigen
Regionen 193 und 186 fiele, würde der Punkt unter Verwendung
der Warp-Transformation für
die vierseitigen Regionen 193 und 194, an Stelle
der Warp-Transformation für
die vierseitigen Regionen 186 und 187, auf die
Karte 185 übertragen werden.
Dieses Standard-Prioritätsschema
funktioniert in der Praxis relativ gut, da eine größere vierseitige
Region (wie zum Beispiel die vierseitige Region 186) normalerweise
einen Teil des Bodens darstellt, während eine kleinere vierseitige
Region (wie zum Beispiel die vierseitige Region 193) normalerweise die
Oberfläche
eines Tischs oder eines anderen Objekts, das sich auf dem Boden
befindet, darstellt. Die Oberfläche
des Tischs ist normalerweise für
die Videokamera sichtbar, aber sie blockiert einen Teil des Bodens
von der Sicht der Kamera aus gesehen. Folglich erhält man,
wenn zwei vierseitige Regionen sich überlappen, normalerweise ein
Ergebnis, das dem entspricht, was für die Kamera sichtbar ist und was
nicht, wenn man das sich überlappende
Gebiet der kleineren vierseitigen Region und nicht der größeren vierseitigen
Region zuordnet. Es kann jedoch Umstände geben, unter denen es der
Bediener eventuell wünscht,
eine bestimmte Region, in der sich vierseitige Regionen überlappen,
mit einer unterschiedlichen Priorität zu versehen, und der Arbeitsrechner 13 gestattet
es dem Bediener, Priorisierungsinformationen manuell einzugeben,
die über
die Standardpriorisierung Vorrang haben.
-
Nachdem
der Bediener mindestens ein Paar sich entsprechender vierseitiger
Regionen im Bild 184 und auf der Karte 185 gezeichnet
und die Priorität
für alle
sich überlappenden
Regionen definiert hat, kann das System 10 in eine normale Überwachungsbetriebsart
geschaltet werden. Aufeinander folgende Bilder von der Videokamera 12 werden
hinsichtlich des Referenzbilds aus 11 auf
gleiche Weise verarbeitet, wie oben in Zusammenhang mit den 2 und 3 beschrieben.
In dieser Hinsicht ist 13 eine schematische Darstellung ähnlich wie 12, außer, dass
das angezeigte Videobild ein aktuelles Videobild 201 an
Stelle des gespeicherten Referenzbildes aus 11 ist.
-
In 13 spiegelt
das aktuelle Videobild 201 wider, dass eine Person 206 den
Raum betreten hat, während
sie ein Objekt 207 trug, das Objekt 207 auf die
Oberfläche
des Tischs 182 gelegt hat und sich dann vom Objekt 207 entfernt
hat. Das Objekt 207 kann beispielsweise eine Aktentasche
oder eine Kiste sein. Der Rahmen für die Person 206 ist
unter 211 abgebildet und der Rahmen für das Objekt 207 ist
unter 212 abgebildet. Die Mittelpunkte der Unterseite der
Rahmen 211 und 212 sind an den Punkten 213 bzw. 214 abgebildet.
-
Der
Mittelpunkt 213 befindet sich in der vierseitigen Region 186 und
die Warp-Transformation für die
vierseitigen Regionen 186 und 187 wird daher dafür verwendet,
den Punkt 213 aus der vierseitigen Region 186 als
einen entsprechenden Punkt 218 in der vierseitigen Region 187 der
Karte 185 abzubilden. Auf der Karte 185 wird am
Punkt 218 ein Symbol angezeigt, beispielsweise ein Punkt,
um auf der Karte 185 eine sichtbare Anzeige der Stelle
zu liefern, an der die Person 206 im Raum steht. Der Mittelpunkt 214 befindet
sich in der vierseitigen Region 191 und daher wird die
Warp-Transformation, die zu den vierseitigen Regionen 191 und 192 gehört, verwendet, um
den Punkt 214 als einen entsprechenden Punkt 219 auf
der Karte 185 abzubilden. Auf der Karte 185 wird
am Punkt 219 ein Punkt angezeigt, um anzuzeigen, wo sich
das Objekt 207 auf der Karte 185 befindet. Wenn
sich die Person 206 im Raum bewegt, bewegt sich der Punkt 218,
der die Person darstellt, auf der Karte 185, um eine genaue
Anzeige darüber
zu liefern, wo sich die Person momentan im Raum befindet.
-
Wenn
sich die Person 206 zu einer Stelle begibt, an der der
Punkt 213 sich außerhalb
aller vierseitigen Regionen 186, 188, 191 und 193 im
Bild 201 aus 13 befindet, dann wird der Punkt 213 so
lange nicht auf der Karte 185 abgebildet, wie sich der Punkt 213 außerhalb
dieser vierseitigen Regionen auf dem Bild 201 befindet.
Folglich wird der Punkt 218 so lange nicht auf der Karte 85 angezeigt,
wie sich der Punkt 213 außerhalb dieser vierseitigen
Regionen auf dem Bild 201 befindet.
-
Wenden
wir uns nun wieder 12 zu, in der es der Arbeitsrechner 13 dem
Bediener auch gestattet, eine oder mehrere vierseitige Regionen
zu definieren, von denen eine bei 223 auf der Karte 185 abgebildet
ist. Die vierseitige Region 223 erscheint nur auf der Karte 185 und
hat keine entsprechende vierseitige Region im Bild 184.
Der Bediener versieht die vierseitige Region 223 mit einer
eindeutigen Beschriftung, zum Beispiel mit der Beschriftung „Z". Wenden wir uns
nun wieder 13 zu, in der die vierseitige
Region 223 dafür
verwendet werden kann, auf bestimmte Ereignisse zu überprüfen. Wenn
der Arbeitsrechner 13 zum Beispiel feststellt, dass sich der
Punkt 218 zu einer Stelle auf der Karte bewegt hat, die
sich in der vierseitigen Region 223 befindet, könnte der
Arbeitsrechner 13 eine spezielle Aktion durchführen, wie
zum Beispiel die Erzeugung eines hörbaren Alarms. In einer Abwandlung
dieses Beispiels würde
der Arbeitsrechner 13 vielleicht nicht unmittelbar, nachdem
der Punkt 218 in die vierseitige Region 223 eingetreten
ist, einen hörbaren
Alarm erzeugen, sondern erst dann, wenn der Punkt 218 für eine bestimmte
Zeitdauer in der vierseitigen Region 223 verweilt, was
als „Herumlungern" bezeichnet werden
kann.
-
Es
kann ein Ereignis-Auswahlkasten 136, wie vorher in 9 veranschaulicht,
auf der Anzeige 21 der 1 dargestellt
und in Verbindung mit dem Teil des Anzeigebildschirms, der in 13 abgebildet
ist, verwendet werden. Ein Bediener kann den Ereignis-Auswahlkasten 136 dazu
verwenden, festzulegen, dass der Arbeitsrechner 13 auf
ein bestimmtes Ereignis überprüfen soll,
und anzugeben, welche Aktion durchgeführt werden soll, wenn das spezifizierte Ereignis
eintritt. Dieses Vorgehen wurde vorher oben in Zusammenhang mit 9 beschrieben.
-
Wenden
wir uns nun 12 zu, in der es der Arbeitsrechner 13 dem
Bediener gestattet, auch eine oder mehrere vierseitige Regionen
zu definieren, von denen eine unter 241 auf dem Referenzbild 184 abgebildet
ist. Die vierseitige Region 241 erscheint nur auf dem Referenzbild 184 und
hat keine entsprechende vierseitige Region auf der Karte 185.
Der Bediener versieht die vierseitige Region 241 mit einer eindeutigen
Beschriftung, zum Beispiel mit der Beschriftung „Y". Diese Art vierseitiger Regionen wird dafür verwendet,
die Abbildung von Punkten vom Bild 184 auf der Karte 185 einzuschränken. Genauer
gesagt, wenn eine erfasste veränderte
Region vollständig
in die vierseitige Region fällt,
wird die veränderte Region
für alle
Zwecke vollständig
ignoriert, und somit wird kein Punkt vom Bild 184 auf der
Karte 185 als Ergebnis dieser erfassten veränderten
Region abgebildet. Auf der anderen Seite wird die veränderte Region
auf normale Art wie vorher beschrieben behandelt, wenn nur ein Teil
einer erfassten veränderten Region
in die vierseitige Region 241 fällt. Diese Fähigkeit
wird bereitgestellt, um bestimmte Arten von Aktivitäten in einem überwachten
Gebiet absichtlich zu ignorieren.
-
Genauer
gesagt, als ein Beispiel, wenn sich ein Computerdrucker im überwachten
Gebiet befindet, würde
das System 10 jedes Mal, wenn der Drucker ein Blatt Papier
auswirft, dieses Ereignis erfassen und protokollieren. Auf ähnliche
Weise würde, wenn
sich ein unbeaufsichtigter Computermonitor im überwachten Gebiet befände, der
einen Bildschirmschoner anzeigt, das System 10 normalerweise Änderungen
der Anzeige, die vom Bildschirmschonerprogramm hervorgerufen würden, erfassen
und protokollieren. Durch Platzierung der vierseitigen Region 241 um
den Drucker oder um den Computermonitor herum fänden alle Aktivitäten, die
mit dem Drucker oder dem Monitor zusammenhängen, vollständig innerhalb
der vierseitigen Region 241 statt und würden somit ignoriert werden.
Folglich würden
das Auswerfen von Papier des Druckers oder Änderungen der Anzeige des Monitors
ignoriert werden, so dass das System 10 nicht zahlreiche
Ereignisse protokollieren würde,
die von wenig oder keinem Interesse sind. In 12 befindet
sich die vierseitige Region 241 innerhalb der vierseitigen
Region 186. Wenn sich eine erfasste veränderte Region vollständig in
der vierseitigen Region 241 befindet, wird sie vollständig ignoriert,
obwohl sie sich auch in der vierseitigen Region 186 befindet.
-
Dieser
Aspekt der vorliegenden Erfindung bietet eine Reihe von technischen
Vorteilen. Ein solcher Vorteil liegt darin, dass ein Systembediener
die Abbildung zwischen einem Videobild und einer Standortkarte schnell
und genau definieren kann. Vorausgesetzt, der Bediener ist ziemlich
sorgfältig
bei der Zeichnung genauer vierseitiger Regionen, dann können Abbildungsfehler
im Wesentlichen ausgeschlossen werden. Ein im Videobild erfasstes
Objekt wird zum Beispiel nicht fälschlicherweise
auf der falschen Seite einer Wand platziert sein. Ein weiterer Vorteil
besteht darin, dass dies ohne die Notwendigkeit erreicht werden
kann, Kameraparameter definieren zu müssen, einschließlich interner
Parameter, wie zum Beispiel Brennweite und Millimeter pro Pixel, und
externer Parameter, wie zum Beispiel den Standort und die Ausrichtung
der Kamera. Dies alles wird automatisch berücksichtigt.
-
14 ist
eine schematische Darstellung einer Überwachungsvorrichtung 310,
die einen anderen Aspekt der vorliegenden Erfindung verkörpert. Die Überwachungsvorrichtung 310 wird
dafür verwendet,
Aktivitäten
in einer oder mehreren Regionen oder Gebieten von Interesse zu überwachen.
Die Überwachungsvorrichtung 310 kann
zum Beispiel in einem Wohnhaus verwendet werden, um Aktivitäten in einem
oder mehreren Räumen
zu überwachen,
im Hof, an der Vordertüre
und/oder in der Einfahrt. Sie könnte
auch für
die Überwachung
eines oder mehrerer Gebiete in einer geschäftlichen oder industriellen Einrichtung
verwendet werden.
-
Die Überwachungsvorrichtung 310 umfasst zwei
Bilddetektoren 312 und 313, die im offenbarten Ausführungsbeispiel
Videokameras bekannter Art sind. Die Videokameras 312 und 313 umfassen
je einen nicht abgebildeten Ladungskoppelelement- (CCD-) Sensor
und eine nicht abgebildete Zoomobjektiv-Baugruppe für die Anpassung des Sehbereichs des
Bildes, das auf dem CCD-Sensor
fokussiert ist. Die Videokameras 312 und 313 können unterschiedliche
Ansichten desselben überwachten
Gebiets zeigen oder jede Kamera kann eine Ansicht eines vollständig unterschiedlichen überwachten
Gebiets zeigen.
-
Die
Videokameras 312 und 313 umfassen je ein entsprechendes
Steuerwerk 316 bzw. 317. Die Steuerwerke 316 und 317 sind
jeweils in der Lage, automatisch die Zoomeinstellung der Zoomobjektiv-Baugruppe
in der zugehörigen
Videokamera 312 bzw. 313 zu steuern. Ferner umfassen
die Steuerwerke 316 und 317 jeweils einen physischen
Halter für
die zugehörige
Videokamera, der eine automatisierte Anpassung der physischen Ausrichtung
der zugehörigen
Videokamera 312 bzw. 313 ausführen kann. Anders ausgedrückt, können die
Steuerwerke 316 und 317 in Hinblick auf ein erfasstes
Bild des überwachten
Gebiets jeweils die Ausrichtung der zugehörigen Kamera 312 bzw. 313 nach
oben, nach unten, nach links oder nach rechts anpassen, so dass das
erfasste Bild innerhalb des überwachten
Gebiets nach oben, nach unten, nach links oder nach rechts angepasst
wird.
-
Die Überwachungsvorrichtung 310 umfasst auch
einen Sensor 319, der ein Ereignis, das von Interesse ist,
in einem Gebiet, das von mindestens einer der Kameras 312 und 313 überwacht
wird, erfassen kann. Im offenbarten Ausführungsbeispiel ähnelt der
Sensor 319 denjenigen, die in Systemen verwendet werden,
die automatisch Türen
für Kunden
in Einzelhandelseinrichtungen öffnen.
Konkret handelt es sich bei dem Sensor 319 um einen Infrarotsensor,
der in der Lage ist, eine Wärmequelle
innerhalb des Gebiets, das es überwacht,
zu erfassen, einschließlich der
Anwesenheit eines Menschen oder eines Tieres.
-
Die Überwachungsvorrichtung 310 umfasst ferner
ein System 322, das einen Computer 324 enthält. Bei
dem Computer 324 kann es sich um einen Personal Computer
handeln, der einen Prozessor enthält und der ein Speicherelement
wie zum Beispiel ein Festplattenlaufwerk enthält.
-
Eine
Videoverbindung 326 wird zwischen der Videokamera 312 und
dem Computer 324 bereitgestellt, um Videobilder von der
Videokamera 312 an den Computer 324 zu liefern.
Eine ähnliche
Videoverbindung 328 wird von der Videokamera 313 zum Computer 324 bereitgestellt.
Steuerleitungen 327 werden vom Computer 324 zum
Steuerwerk 316 der Videokamera 312 bereitgestellt,
um dem Steuerwerk 316 Informationen zu liefern, die bestimmen,
wie das Steuerwerk 316 die Videokamera 312 positioniert und
wie das Steuerwerk 316 den Zoomfaktor der Zoomobjektiv-Baugruppe
in der Kamera 312 einstellt. Ein ähnlicher Satz Steuerleitungen 329 wird vom
Computer 324 an das Steuerwerk 317 der Videokamera 313 bereitgestellt.
Der Infrarotsensor 319 weist einen Ausgang 331 auf,
der mit dem Computer 324 gekoppelt ist.
-
Das
System 322 umfasst ferner eine zellulare Basisstation 336 einer
bekannten Art, die für
die Datenübertragung
mit (drahtlosen) Mobiltelefonen verwendet wird. Der Computer 324 ist
operativ an die Basisstation 336 durch ein Netzwerk 338 gekoppelt, das
das Internet umfasst und das ein oder mehrere andere Netzwerke,
wie zum Beispiel ein lokales Netzwerk, ein Weitbereichsnetz usw.
umfassen kann. Das Netzwerk 338 ist an eine nicht abgebildete
Netzwerkschnittstellenkarte gekoppelt, die im Computer 324 bereitgestellt
wird. Da das Netzwerk 338 das Internet umfasst, ist es
in der Lage, Informationen im als World Wide Web (WWW) bekannten
Internet-Format zu übertragen,
in dem Dokumente, die Web-Seiten genannt werden, zwischen Computern
in einem standardisierten Format, das als Hypertext Mark-Up Language
(HTML) Format bekannt ist, übertragen werden.
-
Das
System 322 umfasst auch eine Telefonleitung oder das System 341,
das an einer Seite an ein nicht abgebildetes Modem im Computer 324 gekoppelt
ist, und an der anderen Seite an die zellulare Basisstation 336.
-
Die Überwachungsvorrichtung 310 umfasst ferner
eine tragbare Datenübertragungseinheit 346, die
ein (drahtloses) Mobiltelefon ist und die auch einige zusätzliche
Fähigkeiten
aufweist, wie unten erörtert
wird. Die tragbare Einheit 346 im offenbarten Ausführungsbeispiel
kann eine Einheit sein, die unter dem Handelsnamen NOKIA 9000 von
NOKIA aus Irving, Texas, erhältlich
ist. Die tragbare Datenübertragungseinheit 346 hat
eine Antenne 348, die eine drahtlose Datenübertragung
mit der Basisstation 336 durch eine Hochfrequenz-(HF-) Mobiltelefonverbindung 349 ermöglicht.
-
Die
tragbare Einheit 346 weist eine LCD-Anzeige 351 auf,
die in der Lage ist, zweidimensionale Videobilder in einer niedrigen
Auflösung
anzuzeigen. Ferner weist die tragbare Einheit 346 eine
Mehrzahl an Knöpfen
oder Tasten auf, von denen eine unter 352 angezeigt ist.
Ein Bediener kann diese Tasten verwenden, um Informationen in die
tragbare Einheit 346 einzugeben. Die Tasten umfassen eine
alphanumerische Tastatur, die ein „QWERTY"-Format hat, das dem von Personal Computern ähnelt, und
sie umfassen mehrere Funktionstasten.
-
Die Überwachungsvorrichtung 310 ist
in der Lage, ein von einer der Videokameras 312 oder 313 erfasstes
Videobild aufzunehmen, eine Bildverarbeitung an den erfassten Bildern
im Computer 324 durchzuführen, das sich daraus ergebende
bearbeitete Bild an die tragbare Einheit 346 durch das
Netzwerk 338, die Basisstation 336 und die drahtlose
Verbindung 349 zu übertragen,
und das bearbeitete Bild auf der Anzeige 351 der tragbaren
Einheit 346 darzustellen. Im offenbarten Ausführungsbeispiel
umfasst die vom Computer 324 durchgeführte Bildverarbeitung Schritte,
die unten in Bezug auf 15 erläutert werden.
-
In
diesem Hinblick ist jede der Videokameras 312 und 313 in
der Lage, aufeinander folgende Bilder in einer Geschwindigkeit und
Auflösung
zu erzeugen, die mehr Informationen darstellen, als durch die drahtlose
Verbindung 349 übertragen
werden können.
Selbst eine kostengünstige
Videokamera kann beispielsweise 30 Frames oder Bilder pro Sekunde erzeugen,
die jeweils eine Auflösung
von 320 mal 240 Grauskalapixel haben. Für die Übertragung der Daten, die all
diese Pixel darstellen, wäre
ein Durchsatz von circa 18 Millionen Bit pro Sekunde erforderlich.
Bestehende drahtlose Mobilfunkverbindungen, wie die bei 349 in 14,
können
einen nominalen Durchsatz von circa 9600 Bit pro Sekunde aufrecht erhalten,
oder anders ausgedrückt,
circa 1/2000 der gesamten Videoinformationen, die von der Videokamera
erzeugt werden.
-
Eine
weitere Überlegung
ist die, dass bestehende tragbare Einheiten, wie die bei 346 in 14 gezeigte,
Monochrom-Anzeigen mit niedriger Auflösung haben. Das heißt, dass
die Auflösung
einer Anzeige, wie die bei 351 gezeigte für ein Videobild
auf circa 160 mal 120 Pixel begrenzt ist, bei dem ein Pixel entweder
an oder aus ist oder, anders ausgedrückt, eine von zwei unterschiedlichen
Farben, wie zum Beispiel schwarz oder weiß, darstellt.
-
Aus
diesen Gründen
werden die Bilder von den Videokameras 312 und 313 in 14 vom
Computer 324 einer Bildverarbeitung unterzogen, die schematisch
in 15 abgebildet ist. 15 ist
ein Flussdiagramm, das die aufeinander folgenden Bildverarbeitungsschritte 161 bis 163 zeigt.
Der erste Schritt 161 stellt ein zeitliches Abtasten dar,
das beinhaltet, dass eine Teilmenge der von einer bestimmten Videokamera
erzeugten Bilder ausgewählt
wird. Von den circa 30 Frames oder Bildern, die eine Videokamera
pro Sekunde erzeugt, werden zum Beispiel zwei dieser Frames oder
Bilder für
die Bildverarbeitung ausgewählt
und die anderen können
verworfen werden.
-
Dann
wird bei Block 362 eine räumliche Abtastung durchgeführt. Anders
ausgedrückt,
wird ein Subsampling durchgeführt,
um die Auflösung
jedes der bei 361 ausgewählten Bilder zu verringern.
Jeder Frame oder jedes Bild kann beispielsweise auf circa 80 mal
60 Pixel verringert werden.
-
Dann
wird bei Block 363 ein Dithering-Verfahren ausgeführt, um
die Daten, die jedem Pixel entsprechen auf ein einziges Bit zu verringern.
Das heißt,
dass das mit jedem Pixel verbundene Bit anzeigt, ob das Pixel an
oder aus ist. Anders ausgedrückt,
hat jedes der Pixel eine von zwei verschiedenen Farben, wie zum
Beispiel schwarz und weiß.
Das Dithering-Verfahren setzt unter Anwendung einer bekannten Technik
den Status jedes Pixels des bearbeiteten Bildes auf Grundlage der
Zustände
von mehreren Pixeln des räumlich
abgetasteten Bildes fest. Im offenbarten Ausführungsbeispiel verringern das
bei den Blöcken 361 bis 363 aus 15 durchgeführte Abtasten
und Dithering die Videoausgabe auf 9600 Bit pro Sekunde.
-
Im
offenbarten Ausführungsbeispiel
nimmt der Computer 324 die Bilder, die gemäß den oben
in Zusammenhang mit 15 erörterten Techniken bearbeitet
wurden, und fügt
diese bearbeiteten Bilder sukzessive in ein Dokument oder eine Web-Seite
ein, die im HTML-Format ist und somit über das Internet zugänglich ist.
In diesem Hinblick umfasst die tragbare Einheit 346 ein
vom Hersteller installiertes Browser-Programm, das in der Lage ist,
auf eine HTML-Seite oder ein Dokument, das vom Computer 324 über das
Netzwerk 338 empfangen wurde, zuzugreifen, dieses herunterzuladen
und auf der Anzeige 351 anzuzeigen.
-
16 zeigt
ein Beispiel dessen, wie die Anzeige 351 der tragbaren
Einheit 346 eine vom Computer 324 erzeugte HTML-Seite
darstellen könnte. Auf
der linken Seite der Anzeige 351 wird ein Bild 371 dargestellt,
das gemäß den Schritten 361 bis 363 aus 15 abgetastet
und einem Dithering-Verfahren unterzogen wurde. Wie oben erörtert, handelt
es sich hierbei um ein monochromes (zweifarbiges) Bild mit einer
niedrigen Auflösung
von 60 mal 90 Pixel. Trotzdem reicht es aus, um die Anwesenheit
einer Person, im Sehbereich visuell festzustellen, beispielsweise der
unter 372 im Bild 371 angezeigten Person.
-
Rechts
des Bildes 371 enthält
die HTML-Seite acht Icons, die mit den Referenznummern 381 bis 388 gekennzeichnet
sind. Rechts von jedem Icon befindet sich ein Ausdruck in Klammern
in der Form von „(FX)", wobei X für eine ganze
Zahl steht. Rechts von jedem Ausdruck in Klammern befindet sich
eine Beschriftung, die die Funktion des zugehörigen Icons identifiziert.
Jeder Ausdruck in Klammern identifiziert eine Funktionstaste auf
der tragbaren Einheit 346, die die Ausführung der zugehörigen Funktion
veranlasst. Die Icons 387 und 388 beziehen sich
auf die Fähigkeit
des Bedieners, eine der beiden Videokameras 312 und 313 auszuwählen. Wenn
der Bediener die dem Icon 387 zugeordnete Funktionstaste
F7 drückt,
führt eine
zugehörige
HTML-Verknüpfung
mit dem WWW-Serverprogramm im Computer 324 dazu, dass der
Computer 324 die erste Videokamera 312 als ausgewählte Videokamera
bestimmt. Der Computer 324 ignoriert dann die Ausgabe der
zweiten Videokamera 313, unterzieht nur die Ausgabe der
Videokamera 312 der oben in Zusammenhang mit 15 beschriebenen
Bildverarbeitung und leitet nur die bearbeiteten Bilder, die von
der ausgewählten
Videokamera 312 erhalten wurden, an die tragbare Einheit 346 weiter.
Andererseits wird die zweite Videokamera 313 als ausgewählte Kamera
bestimmt, wenn der Bediener die dem Icon 388 zugeordnete
Funktionstaste F8 drückt,
die Videobilder von der Kamera 313 werden der oben in Zusammenhang
mit 15 beschriebenen Bildverarbeitung unterzogen und
nur die bearbeiteten Bilder von der Kamera 313 werden an
die tragbare Einheit 346 weitergeleitet.
-
Das
Icon 381 ist eine nach oben zeigende Pfeilspitze. Wenn
der Bediener die dem Icon 381 zugeordnete Funktionstaste
F1 drückt,
führt eine
zugehörige
HTML-Verknüpfung
mit dem WWW-Serverprogramm im Computer 324 dazu, dass der
Computer 324 entweder bei 327 oder bei 329 Steuersignale an
das Steuerwerk 316 oder 317 in der aktuell ausgewählten Videokamera 312 oder 313 sendet.
Diese Steuersignale führen
dazu, dass das Steuerwerk 316 oder 317 der ausgewählten Kamera
die Ausrichtung der Kamera schräg
verstellt, so dass sich das mit dieser Kamera verbundene Bild in
Hinblick auf dessen Ansicht des überwachten
Gebietes nach oben verschiebt. Auf ähnliche Weise wird die ausgewählte Kamera 312 oder 313 entsprechend
nach unten, nach rechts oder nach links gerichtet, wenn der Bediener eine
der entsprechenden Funktionstasten F2, F3 oder F4 drückt, die
mit den Icons 382 bis 384 entsprechend verknüpft sind.
-
Wenn
der Bediener die dem Icon 385 zugeordnete Funktionstaste
F5 drückt,
führt eine
zugehörige
HTML-Verknüpfung
dazu, dass der Computer 324 bei 327 oder 329 Steuersignale
an das Steuerwerk 316 oder 317 der ausgewählten Videokamera sendet.
Diese Steuersignale führen
dazu, dass die Zoomobjektiv-Baugruppe
in der ausgewählten
Videokamera 312 oder 313 ihren Vergrößerungsfaktor
in einer Weise vergrößert, die
allgemein als Hineinzoomfunktion bekannt ist. Wenn der Bediener
alternativ hierzu die dem Icon 386 zugeordnete Funktionstaste
F6 drückt,
führt deren
zugehörige HTML-Verknüpfung dazu,
dass die Zoomobjektiv-Baugruppe in der ausgewählten Videokamera ihren Vergrößerungsfaktor
in einer Weise verkleinert, die allgemein als Hinauszoomfunktion
bekannt ist.
-
Wenn
die tragbare Einheit 446 ein mausartiges Zeigegerät, wie zum
Beispiel einen kleinen Trackball, aufweist, kann der Bediener das
Zeigegerät
dafür verwenden,
ein beliebiges der Icons 381 bis 388 auszuwählen und „anzuklicken", um die zugehörige Funktion
auszuführen.
Auf ähnliche
Weise kann der Bediener direkt auf eins der Icons 381 bis 388 klicken,
wenn er auf diese HTML-Seite von einem anderen entfernt aufgestellten
Computer zugreifen sollte und dieser Computer eine Maus aufweist.
-
Wie
oben erörtert,
ist der Infrarotsensor 319 in der Lage, die Anwesenheit
einer Wärmequelle,
wie zum Beispiel eines Menschen oder eines Tieres, in seinem Sehbereich
zu erfassen. Wenn der Sensor 319 ein Signal bei 331 ausgibt,
das anzeigt, dass er die Anwesenheit einer solchen Wärmequelle
erfasst hat, reagiert der Computer 324 dadurch, dass er
einen Telefonanruf mit Hilfe seines nicht abgebildeten Modems an
das Telefon in der tragbaren Einheit 346 ausführt, nämlich durch
die Telefonleitung 341, die Basisstation 336 und
die drahtlose Verbindung 349. Hierdurch wird die Person
oder der Bediener, der die tragbare Einheit 346 besitzt,
darüber
informiert, dass sich etwas im entfernten Gebiet, das vom System 310 aus 14 überwacht
wird, abspielt. Der Bediener kann dann den in der Einheit 346 zur
Verfügung stehenden
Browser dafür
verwenden, auf die vom Computer 324 erzeugte HTML-Seite
zuzugreifen und diese herunterzuladen, um eine Bildschirmanzeige wie
die in 16 abgebildete zu erhalten,
so dass der Bediener das Bild 371 betrachten und herausfinden
kann, was sich im überwachten
Gebiet abspielt.
-
Alternativ
hierzu wäre
es möglich,
den Sensor 319 wegzulassen, und den Computer 324 das Eintreten
eines Ereignisses, das von Interesse ist, erfassen zu lassen, indem
die von einer der Videokameras 312 und 313 empfangenen, unaufbereiteten Bilder
verarbeitet werden. 17A ist beispielsweise eine
schematische Darstellung eines Bildes eines überwachten Gebietes, das von
der Videokamera 312 erzeugt wurde. In diesem Fall handelt
es sich bei dem überwachten
Gebiet um den Eckbereich eines Raumes. 17B ist
ein nachfolgendes Bild von derselben Kamera, das aufgenommen wurde,
nachdem eine Person 396 in die überwachte Ecke des Raumes gegangen
war.
-
Das
aktuelle Bild in 17B kann mit dem vorherigen
Referenzbild der 17A verglichen werden, um festzustellen,
ob das aktuelle Bild in irgendeiner merklichen Weise vom Referenzbild
abweicht. Dieser Vergleich kann zum Beispiel auf Pixel-Basis ausgeführt werden,
indem zunächst
der absolute Wert der Differenz zwischen den Grauskala-Farbwerten
jedes Pixels festgestellt und das Ergebnis dann mit einem Schwellwert
verglichen wird. Wenn der absolute Wert der Differenz eines bestimmten
Pixels niedriger als der Schwellwert ist, dann wird das Pixel ausgeschaltet.
Andererseits wird das Pixel angeschaltet, wenn der absolute Wert
der Differenz über
dem Schwellwert liegt.
-
Das
Ergebnis ist ein monochromes (zweifarbiges) Bild, wie das in 17C abgebildete. In 17C gibt
es eine Pixelgruppe bei 397, die der Person 396 entspricht
und die angeschaltet wurde, um anzuzeigen, dass sich etwas im Vergleich
zum Referenzbild der 17A geändert hat. Diese Bedingung
kann dafür
verwendet werden, einen Telefonanruf vom Computer 324 an
die tragbare Einheit 346 auszulösen. Es sollte offensichtlich
sein, dass, während
der Infrarotsensor 319 Wärme erfasst, der in Zusammenhang
mit 17 beschriebene alternative Ansatz
Bewegungen oder eine Veränderung
im Videobild erfasst, und nicht die Anwesenheit oder Abwesenheit
von Wärme.
-
Im
offenbarten Ausführungsbeispiel
umfasst die in Zusammenhang mit 15 beschriebene
Bildverarbeitung nicht die Anwendung von Videokomprimierungstechniken.
Man wird jedoch erkennen, dass der Computer 324 aus 14 mit
Hardware und/oder Software ausgestattet werden könnte, die in der Lage ist,
eine bekannte Videokomprimierungstechnik auszuführen, und dass die tragbare
Einheit 346 mit der Fähigkeit
ausgestattet werden könnte, die komprimierten
Videoinformationen zu dekodieren, um diese anzuzeigen. Die Videokomprimierung könnte beispielsweise
gemäß dem als
MPEG-4 bekannten Standard ausgeführt
werden. Für
den Fall, dass eine Videokomprimierung auf diese Art bereitgestellt
würde,
würde die
Menge an Videoinformationen erhöht
werden, die vom Computer 324 zur tragbaren Einheit 346 in
Echtzeit übertragen
werden könnte.
Folglich könnte
die in Zusammenhang mit 15 beschriebene
Bildverarbeitung so angepasst werden, dass die Anzahl an bearbeiteter
und pro Sekunde übertragener
Bilder und/oder die Auflösung der
bearbeiteten Bilder erhöht
würden.
-
Dieser
dritte Aspekt der vorliegenden Erfindung bietet eine Reihe von technischen
Vorteilen. Ein solcher technischer Vorteil besteht darin, dass die drahtlose
Verbindung zu einer tragbaren Einheit es ermöglicht, dass das überwachte
Gebiet von so gut wie jedem entfernten Standort aus und zu jeder
passenden Zeit betrachtet werden kann. Außerdem kann die Kameraposition
und/oder der -betrieb von diesem entfernten Standort aus angepasst
werden. Ein weiterer Vorteil liegt darin, dass der Eintritt eines
Ereignisses von Interesse im überwachten
Gebiet erfasst werden und eine Anzeige über die Erfassung dieses Ereignisses
automatisch an die tragbare Einheit gesendet werden kann. Die Person,
die die tragbare Einheit besitzt, kann dann auf Bilder von einer
Kamera im überwachten
Bereich zugreifen, um herauszufinden, ob es tatsächlich ein Problem gibt, das
seine Aufmerksamkeit erfordert. Wenn es kein Problem gibt, könnte die
Person einen Telefonanruf ausführen oder
andernfalls die tragbare Einheit dafür verwenden, die automatische Übermittlung
einer Mitteilung zur Polizei, zur Feuerwehr, zu einer Sicherheitsagentur
o.ä. zu
unterbinden.
-
Noch
ein weiterer Vorteil ist es, dass die Informationen von den Videokameras
in einem Dokument in HTML-Format geliefert werden, auf das leicht von
der tragbaren Einheit oder von jedem geeigneten Computer, der einen
WWW-kompatiblen
Browser umfasst, zugegriffen werden kann. Noch ein weiterer Vorteil
ergibt sich aus der Verwendung von Bildverarbeitungstechniken, um
die Menge an Videoinformationen an einen Pegel anzupassen, der kompatibel
mit der verfügbaren
Bandbreite einer drahtlosen Verbindung ist und der kompatibel mit
der verfügbaren
Auflösung
der tragbaren Einheit ist, während
an die tragbare Einheit immer noch ein Bild geliefert wird, dessen
Auflösung
ausreicht, um die Erfassung der Anwesenheit einer Person oder eines
Objekts im überwachten
Gebiet zu gestatten.
-
Obwohl
ein Ausführungsbeispiel
ausführlich veranschaulicht
und beschrieben wurde, sollte es verstanden werden, dass verschiedene Änderungen, Ersetzungen
und Abänderungen
daran vorgenommen werden können,
ohne vom Umfang der vorliegenden Erfindung abzuweichen. Obwohl das
offenbarte Ausführungsbeispiel
zum Beispiel zwei separate Videokameras aufweist, wird man erkennen,
dass auch nur eine Kamera bereitgestellt werden könnte oder
dass mehr als zwei Kameras bereitgestellt werden könnten. Als
weiteres Beispiel verwendet das offenbarte Ausführungsbeispiel Grauskala-Videokameras,
aber man wird erkennen, dass auch Farb-Videokameras verwendet werden
könnten.
Ferner wird man erkennen, dass es, obwohl das offenbarte Ausführungsbeispiel
Videokameras als Bilddetektoren verwendet, Anwendungsmöglichkeiten
gibt, bei denen eine andere Art Bilddetektor angebracht wäre, zum
Beispiel ein zweidimensionaler Staring Array Infrarot-Detektor.
-
Als
noch ein weiteres Beispiel handelt es sich bei dem im offenbarten
Ausführungsbeispiel
bereitgestellten Ergänzungssensor
um einen Infrarotsensor, aber es könnte sich auch um eine andere
Art Sensor, beispielsweise eine Photozelle, ein Mikrophon o.ä. handeln.
Ebenso wird man erkennen, dass, obwohl das offenbarte Ausführungsbeispiel
auf ein Ausgangssignal vom Infrarotsensor dadurch reagiert, dass
ein Telefonanruf an das Telefon in der tragbaren Einheit ausgeführt wird,
diese Informationen an die tragbare Einheit auch auf alternative
Arten übertragen
werden könnten,
zum Beispiel durch die Sendung einer Funkrufmeldung an einen Funkrufschaltkreis
in der tragbaren Einheit. Andere Änderungen, Ersetzungen und
Abänderungen
sind möglich,
ohne vom Umfang der vorliegenden Erfindung abzuweichen, der durch
die folgenden Ansprüche
definiert wird.
-
Obwohl
ein Ausführungsbeispiel
ausführlich veranschaulicht
und beschrieben wurde, sollte es verstanden werden, dass verschiedene Änderungen, Ersetzungen
und Abänderungen
daran vorgenommen werden können,
ohne vom Umfang der vorliegenden Erfindung abzuweichen. Obwohl das
offenbarte Ausführungsbeispiel
zum Beispiel Trapezoide verwendet, um die Regionen, die von Interesse
sind, auf dem angezeigten Bild und/oder der Karte zu definieren,
wird man erkennen, dass andere Formen alternativ hierzu für die Definition
von Regionen verwendet werden könnten.
Ebenso verwendet das offenbarte Ausführungsbeispiel eine Videokamera,
die einen Detektor umfasst, der auf visuelles Licht reagiert, aber
man wird erkennen, dass alternativ hierzu auch andere Arten von
Detektoren verwendet werden könnten,
wie zum Beispiel ein Staring Array Infrarot-Detektor. Ferner wird
in der vorangegangenen Offenbarung eine exemplarische Anwendungsmöglichkeit
für das
offenbarte Ausführungsbeispiel
erörtert,
aber man wird erkennen, dass es zahlreiche andere Anwendungsmöglichkeiten
und Umgebungen gibt, in denen das offenbarte System auch angewendet
werden könnte.
Andere Änderungen,
Ersetzungen und Abänderungen
sind möglich,
ohne vom Umfang der vorliegenden Erfindung abzuweichen, der durch
die folgenden Ansprüche
definiert wird.
-
Gemäß der vorliegenden
Erfindung können Videoinformationen,
die vom Bilddetektor 12 stammen, auf folgende Weise komprimiert
werden, um komprimierte Bildinformationen zu erhalten. Dieses Verfahren
könnte
im Bildverarbeitungsabschnitt 27 oder im Arbeitsrechner 13 stattfinden,
je nach den jeweiligen Kapazitäten
dieser Computer. Für
dieses Beispiel wird davon ausgegangen, dass diese Verarbeitung
sowie eine solche Verarbeitung, wie in Hinblick auf 2 beschrieben,
im Bildverarbeitungsabschnitt 27 stattfinden. Zunächst wählt der
Bildverarbeitungsabschnitt 27 ein Videobild mit hoher Auflösung, das
vom Bilddetektor 12 geliefert wird, und speichert dieses
Bild, das danach als Referenzbild dient. Des Beispiels wegen wird
davon ausgegangen, dass es sich bei dem Referenzbild um das in 2A abgebildete
Referenzbild handelt. Der Bildverarbeitungsabschnitt 27 speichert
dieses Referenzbild auf dem Festplattenlaufwerk 34 in einem Format
mit hoher Auflösung.
Der Bildverarbeitungsabschnitt 27 führt für jedes nachfolgende vom Bilddetektor 12 erzeugte
Videobild eine Verarbeitung hinsichtlich des gespeicherten Referenzbildes
aus, die analog zu der oben in Zusammenhang mit den 2B–2G beschriebenen
verläuft.
-
Der
Bildverarbeitungsabschnitt 27 speichert dann einen ausgewählten Teil
des erodierten Bildes aus 2G auf
dem Festplattenlaufwerk 34, nämlich den Teil, der eine Veränderung
im Vergleich zum Referenzbild aus 2A widerspiegelt.
Anders ausgedrückt,
speichert der Bildverarbeitungsabschnitt 27 lediglich den
Teil des erodierten Bildes aus 2G, der
der Person 41 (2B) entspricht.
Ferner wird, da der Teil des erodierten Bildes aus 2G,
der gespeichert wird, nur einer Farbe entspricht, die Speichermenge,
die für
die Speicherung des ausgewählten
Teils des erodierten Bildes benötigt
wird, im Vergleich zur Speichermenge, die für die Speicherung desselben
Teils des erodierten Bildes in einem Grauskala-Format benötigt würde, erheblich
verringert. Genau gesagt, ist es möglich, nur eine Identifizierung dieses
Teils des Bildes ohne Kontrastinformationen zu speichern, oder anders
ausgedrückt,
ohne jegliche Grauskala- oder Farbinformationen, da der Teil des
Bildes, der gespeichert wird, einer einzigen Farbe (schwarz oder
weiß)
entspricht.
-
Somit
führt der
Bildverarbeitungsabschnitt 27 für jedes Videobild, das nach
dem gespeicherten Referenzbild erzeugt wird, eine Verarbeitung aus,
die analog zu derjenigen verläuft,
die in Zusammenhang mit 2B bis 2G beschrieben
wurde, und speichert dann nur eine Identifizierung des Teils des
sich daraus ergebenden erodierten Bildes, der Unterschiede zum gespeicherten
Referenzbild darstellt. Das gespeicherte Referenzbild und die gespeicherte Identifizierung
einer Änderung
oder eines Teils mit Bewegung jedes nachfolgenden Bildes stellen
somit kollektiv komprimierte Bildinformationen dar.
-
Um
diese komprimierten Bildinformationen, die auf dem Festplattenlaufwerk 34 gespeichert
sind, zu dekomprimieren und anzuzeigen, würde der Bildverarbeitungsabschnitt 27 jedes
Videobild dadurch rekonstruieren, indem er das gespeicherte Referenzbild
(das in diesem Beispiel das Referenzbild aus 2A ist)
anzeigt und dann auf dem Referenzbild in einer einzelnen einheitlichen
Farbe eine Region einblendet, die auf den gespeicherten Informationen beruht,
die eine veränderte
Region identifizieren (die in diesem Bereich vom erodierten Bild
aus 2G abgeleitet wurde). Das sich daraus ergebende
Bild könnte
auf der Anzeige 21 oder dem Arbeitsrechner 13 wie
in 18 abgebildet, angezeigt werden.
-
Da
die komprimierten Bildinformationen keine Grauskala- oder Farbinformationen
beinhalten, mit Ausnahme des Referenzbildes, erscheint die Person
oder das andere Objekt im rekonstruierten Bild in einer einheitlichen
Farbe, wie zum Beispiel schwarz oder weiß. Trotzdem ist es bei der
Rekonstruktion und der Anzeige von aufeinander folgenden Bildern leicht
möglich,
eine Person von einem anderen Objekt, wie zum Beispiel einer Aktentasche,
zu unterscheiden und zu erkennen, dass die Person im überwachten
Gebiet läuft
oder sich anderweitig bewegt. In den meisten Fällen ist es möglich, mit
relativ hoher Genauigkeit zu erkennen, wo die Person im überwachten
Gebiet hinging und was die Person tat. In vielen Überwachungs-
und/oder Sicherheitsanwendungen ist dies mehr als ausreichend, um
die Anforderungen, für
die das System bereitgestellt wird, zu erfüllen.
-
Als
Beispiel für
die Leistungsfähigkeit
dieses Ansatzes nehmen wir eine Sequenz von 243 Frames oder
Bildern an, von denen jedes einen unkomprimierten Speicherbedarf
von 16437 Byte aufweist. Wenn die unkomprimierten, hoch auflösenden Informationen
jedes der 243 Bilder gespeichert würde, wären 243 × 16437 = 3.994.191 Byte erforderlich,
um die gesamte Sequenz zu speichern. Im Gegensatz hierzu wären, wenn
das erste der 243 Bilder in voller Auflösung gespeichert würde, 16437
Byte erforderlich. Wenn man dann nur eine Identifizierung der Teile
der anderen 242 Bilder, die sich vom Referenzbild unterscheiden,
speichert, könnte
die gesamte Speichermenge, die für
die veränderten
Regionen aus allen 242 Bildern erforderlich wäre, 47610
Byte betragen. Somit betrüge
der gesamte Speicher, der für
die gesamte Sequenz benötigt
würde,
circa 16437 + 47610 = 64047 Byte. Die sich daraus ergebende Komprimierungsrate
in diesem bestimmten Beispiel ist somit 62:1. Die genaue Komprimierungsrate
verändert
sich natürlich
von Situation zu Situation, je nachdem, wie viele aufeinander folgende
Bilder mit einem bestimmten Referenzbild verbunden sind, und je
nachdem, wie groß das
Ausmaß ist,
in dem sich die Bilder, die auf das Referenzbild folgen, vom Referenzbild
unterscheiden. Wenn die Unterschiede in Hinblick auf das Referenzbild
selten und minimal sind, wie es häufig im Zusammenhang mit einer Überwachung
der Fall ist, ist die Menge an gespeicherten Informationen sehr
minimal, und die tatsächliche
Komprimierungsrate ist sehr hoch.
-
Die
oben erörterte
Komprimierungsrate kann weiter verbessert werden, indem die Komprimierungstechnik
gemäß der Erfindung
durch bestimmte bekannte Komprimierungstechniken ergänzt wird. Das
Referenzbild könnte
zum Beispiel als JPEG von 16437 Byte auf 3068 Byte komprimiert werden
und die Informationen für
die anderen 242 Bilder könnten mit Lempel-Ziv von 47610
Byte auf 20777 Byte komprimiert werden, was insgesamt 3068 + 20777
= 23845 Byte für
die gesamte Sequenz mit 243 Frames ergibt. Dies entspricht
in Hinblick auf die unaufbereiteten Videodaten von 3.994.191 Byte
einer tatsächlichen
Komprimierungsrate von 170:1.
-
Als
Alternative zur Speicherung der Identifizierung der gesamten veränderten
Region eines Objekts, wie oben in Zusammenhang mit 2G erörtert, wäre es auch
möglich,
nur einen Umriss dieser veränderten
Region zu speichern. 19 zeigt zum Beispiel den Umriss
der veränderten
Region, die in 2G abgebildet ist. Bestehende
MPEG-4 Komprimierungsstandards bieten bei der Speicherung von Umrissen
eine ausgezeichnete Leistungsfähigkeit. Wenn
ein bestimmtes Bild von den komprimierten Bildinformationen auf
dem Festplattenlaufwerk 34 anschließend rekonstruiert wird, indem
der Umriss im Referenzbild, das eine hohe Auflösung hat, eingeblendet wird,
erscheint dieser so wie in 20 abgebildet.
Es gibt keine Grauskala- oder Farbinformationen für ein bestimmtes
Objekt oder eine Person, aber man kann trotzdem aus dem angezeigten
Umriss leicht eine Person von einem anderen Objekt, wie zum Beispiel
einer Aktentasche, unterscheiden und feststellen, wie die Person
sich bewegt und was die Person tut.
-
Wie
oben erörtert,
gibt es viele Anwendungen, in denen die veränderte Region für eine Person oder
ein anderes Objekt ohne die Speicherung von Kontrastinformationen,
wie zum Beispiel Farb- oder Grauskalainformationen, ausreichend
dargestellt werden kann. Es gibt jedoch einige Anwendungen, in denen
es von Vorteil sein kann, einen begrenzten Anteil der Region von
Interesse mit Kontrastinformationen (Farb- oder Grauskalainformationen)
zu versehen. Wenn ein Objekt von Interesse zum Beispiel eine Person
ist, kann es erwünscht
sein, ein Grauskala- oder Farbbild des Gesichts der Person zu erhalten.
Wie oben erörtert,
ist der Bildverarbeitungsabschnitt 27 in der Lage, festzustellen,
ob das Objekt eine Person ist oder nicht. Wenn festgestellt wird, dass
das Objekt eine Person ist, kann der Bildverarbeitungsabschnitt 27 Grauskala-
oder Farbinformationen nur für
einen oberen Anteil der veränderten
Region, die dem Objekt entspricht, speichern und er kann für die restliche
veränderte
Region nur eine Identifizierung ohne Grauskala- oder Farbinformationen
speichern. Im aktuellen Beispiel würde dies dazu führen, dass
die in 21 abgebildeten Informationen
gespeichert würden.
Da ein Anteil dieser Informationen ein Grauskalabild ist, erfordert
dies mehr Speicherplatz als die einfache Identifizierung der durch
das erodierte Bild aus 2G angegebenen veränderten
Region oder des Umrisses dieser in 19 abgebildeten
veränderten
Region. Trotzdem erfordert dies immer noch erheblich weniger Speicherplatz
als für
die Speicherung des gesamten Videobildes benötigt würde oder für die Speicherung nur der veränderten
Region mit Kontrastinformationen für die gesamte veränderte Region.
-
In
noch einer anderen Abänderung
könnte der
Bildverarbeitungsabschnitt 27 ein Referenzbild mit hoher
Auflösung
speichern, aber dann jedes nachfolgende Bild nur mit dem unmittelbar
vorhergehenden Bild vergleichen. Die für das aktuelle Bild gespeicherten
Informationen würden
lediglich die Unterschiede vom unmittelbar nachfolgenden Bild widerspiegeln,
und nicht alle Unterschiede hinsichtlich des Referenzbildes. In
dem bestimmten, in den Zeichnungen abgebildeten Beispiel wäre, wenn
die Person 41 in 2B langsam
den rechten Arm heben würde
aber ansonsten bewegungslos bliebe, der einzige Unterschied zwischen
dem aktuellen Bild und dem unmittelbar nachfolgenden Bild ein paar Änderungen,
die mit der Bewegung des rechten Arms zusammenhingen, wie zum Beispiel
mit der durchgezogenen Linie in 22 abgebildet
ist. Offensichtlich sind wesentlich weniger Informationen erforderlich, um
diese veränderte
Region zu definieren, als der Fall wäre, wenn die der gesamten Person
entsprechende veränderte
Region definiert würde.
Folglich ist die gesamte Speichermenge, die für die Speicherung der komprimierten
Bildinformationen benötigt wird,
sehr gering.
-
Wenn
diese komprimierten Bildinformationen rekonstruiert werden, damit
sie angezeigt werden können,
würde eine
Darstellung der veränderten Region
im Speicher beibehalten und diese würde für jedes nachfolgende Bild leicht
modifiziert werden, wenn dieses dekomprimiert wird, damit es angezeigt werden
kann. Im aktuellen Beispiel würde
das Bild der veränderten
Region, das im Speicher beibehalten würde, an einem gewissen Punkt
im Allgemeinen der in 22 in gestrichelter Linie angegebenen
Region entsprechen. Wenn die Informationen, die der durchgezogenen
Linie in 22 entsprechen, abgerufen würden, würde das
im Speicher beibehaltene Bild basierend auf den in durchgezogener
Linie abgebildeten Informationen modifiziert werden, und danach
würde die
Anzeige des aktuellen Bildes dadurch durchgeführt, dass das Referenzbild
aus 2A angezeigt würde
und dann die im Speicher beibehaltenen Informationen dafür verwendet
würden,
um auf dem angezeigten Referenzbild eine Region einzublenden, die
der gestrichelten Linie in 22 entspricht,
um ein Gesamtbild zu erhalten, das in etwa wie 18 erscheinen
würde.
-
Wie
vorher beschrieben, kann es unter bestimmten Umständen vorkommen,
dass regelmäßig ein
neues Referenzbild gespeichert werden muss. Unter Bezugnahme auf 2A kann
eine Person zum Beispiel in den Raum gehen, eine Aktentasche oder
ein anderes Objekt deponieren und dann den Raum verlassen. Ohne
ein neues Referenzbild würde
die Aktentasche hinsichtlich des Referenzbildes auf unbestimmte
Zeit als eine veränderte
Region erkannt werden, wodurch auf Grund der Bemühung, ein Objekt zu beobachten,
das nicht mehr länger
beobachtet oder überwacht
werden muss, im Zeitablauf eine erhebliche Menge an Informationen
gespeichert werden müsste.
Dementsprechend speichert der Bildverarbeitungsabschnitt 27,
wenn der Bildverarbeitungsabschnitt 27 feststellt, dass
ein Unterschied zum Referenzbild besteht, aber für eine vorher festgelegte Zeitspanne,
zum Beispiel fünf
Minuten lang, keine Änderungen
im aktuellen Bild auftreten, am Ende dieser vorher festgelegten
Zeitspanne ein neues Referenzbild und analysiert dann alle nachfolgend erfassten
Bilder hinsichtlich des neuen Referenzbildes an Stelle des ursprünglichen
Referenzbildes.
-
Die
oben beschriebenen Techniken sind alle einzig und allein von den
Videobildern abhängig,
die vom Bilddetektor 12, bei dem es sich um eine Videokamera
handelt, erzeugt werden. Wie oben erörtert, kann das in 14 abgebildete
System 300 optional einen weiteren Bilddetektor 319 umfassen,
bei dem es sich im offenbarten Ausführungsbeispiel um einen Infrarotbilddetektor
handelt. Die Bilddetektoren 312 und 319 sind natürlich entsprechend
axial ausgerichtet, so dass die von jedem Detektor erfassten Bilder aufeinander
ausgerichtet sind. Ein Videobild vom Bilddetektor 312 würde ausgewählt und
auf dem Festplattenlaufwerk 34 gespeichert, um als Videoreferenzbild
zu dienen. Gleichzeitig würde
ein Infrarotbild vom Bilddetektor 319 temporär im Computer 324 als
Infrarotreferenzbild gespeichert, es würde aber nicht unbedingt auf
einem nicht abgebildeten Festplattenlaufwerk als Teil der komprimierten
Bildinformationen gespeichert werden. Nachfolgende Infrarotbilder
vom Bilddetektor 319 würden
dann mit dem Referenzinfrarotbild in einer Weise verglichen, die analog
zu der oben für
Videobilder in Zusammenhang mit den 2A–2G beschriebenen
Weise verläuft.
Wenn Infrarotbilder auf diese Weise verarbeitet werden, sind die
identifizierten veränderten Regionen
natürlich
diejenigen, die Temperaturunterschieden entsprechen, die fast ausnahmslos
die Anwesenheit eines Menschen oder eines Tieres bedeuten, und nicht
die Anwesenheit einer anderen Objektart, wie zum Beispiel einer
Aktentasche.
-
Informationen,
die jede erfasste veränderte Region
in jedem Infrarotbild identifizieren, werden dann auf dem Festplattenlaufwerk
gespeichert. Wenn die komprimierten Bildinformationen rekonstruiert
werden sollen, wird das gespeicherte Referenzbild (das ein Videobild
ist) angezeigt und die gespeicherten Informationen vom Infrarotbild,
die die erfasste veränderte
Region identifizieren, werden dazu verwendet, um die veränderte Region
zu rekonstruieren und die veränderte
Region auf dem Referenzvideobild einzublenden. Das sich daraus ergebende
zusammengesetzte Bild ist dem in 18 abgebildeten
Bild sehr ähnlich.
-
Die
vorhergehenden Beispiele erörtern
jeweils die Speicherung der komprimierten Bildinformationen auf
dem Festplattenlaufwerk 34 des Bildverarbeitungsabschnitts 27.
Man wird jedoch erkennen, dass der Bildverarbeitungsabschnitt 27 mit
diesen komprimierten Bildinformationen auch andere Aktionen durchführen könnte. So
könnte
der Bildverarbeitungsabschnitt 27 zum Beispiel die komprimierten
Bildinformationen über
das Netzwerk 14 an den Arbeitsrechner 13 übertragen,
und der Arbeitsrechner 13 könnte dann die Informationen
auf der Anzeige 21 anzeigen und/oder die Informationen
auf einem nicht abgebildeten Festplattenlaufwerk speichern.
-
Die
vorliegende Erfindung bietet eine Reihe von technischen Vorteilen.
Ein solcher technischer Vorteil besteht darin, dass das in den komprimierten Bildinformationen
enthaltene Referenzbild in hoher Auflösung eine detaillierte Umgebung
für die Überwachung
liefert, während
die von nachfolgenden Bildern gespeicherten Informationen unter
Verwendung einer relativ kleinen Anzahl an Byte eine hohe zeitliche
Auflösung
bieten. Die hohe zeitliche Auflösung ermöglicht es
einem Menschen, die rekonstruierten Bilder zu überwachen und leicht festzustellen,
wenn sich eine Person im überwachten
Gebiet befindet und was die Person tut. Ein weiterer technischer
Vorteil besteht darin, dass die Dekomprimierung und die Anzeige
effizient von einem kostengünstigen Universalrechner
durchgeführt
werden kann. Noch ein anderer Vorteil liegt darin, dass die gespeicherten
Informationen, die die veränderten
Regionen hinsichtlich des Referenzbildes identifizieren, ausreichend
Informationen beinhalten, um die Ausführung einer automatischen Bewegungsanalyse
unter Anwendung bekannter Techniken zu gestatten.
-
Obwohl
die vorhergehende Offenbarung mehrere verwandte Techniken vorstellt,
die die vorliegende Erfindung alle umfasst, wird man erkennen, dass
es möglich
ist, Änderungen,
Ersetzungen und Abänderungen
dieser Techniken vorzunehmen, ohne vom Umfang der vorliegenden Erfindung
abzuweichen, der durch die folgenden Ansprüche definiert wird.