DE69921237T2

DE69921237T2 - Automatische Videoüberwachungsanlage

Info

Publication number: DE69921237T2
Application number: DE1999621237
Authority: DE
Inventors: Jonathan D. Courtney
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1998-04-30
Filing date: 1999-04-29
Publication date: 2006-02-02
Anticipated expiration: 2019-04-30
Also published as: EP0967584A3; DE69921237D1; JPH11355762A; EP0967584A2; EP0967584B1

Description

Technisches Gebiet der Erfindung
Diese Erfindung bezieht sich im Allgemeinen auf Überwachungssysteme und im Spezielleren auf ein Verfahren für die Abbildung der physischen Position eines Objekts von einem Videobild auf eine Karte eines überwachten Gebiets.
Hintergrund der Erfindung
Ein Überwachungs- oder Beobachtungssystem kann eine Videokamera umfassen, die Bilder eines überwachten Gebiets oder einer überwachten Region erzeugt, und einen Computer, der die Bilder von der Videokamera empfängt und verarbeitet. Der Computer umfasst eine digitalisierte Karte und er überwacht die erfassten Videobilder, um im überwachten Gebiet die Anwesenheit eines Objekts von Interesse, wie zum Beispiel eines Menschen, festzustellen. Wenn durch eine Analyse der erfassten Bilder ein Objekt von Interesse identifiziert wird, wird der Standort des Objekts auf dem Bild auf der Karte abgebildet.
Es ist auch üblich, die Ausgabe von jeder Kamera auf einem Zeitraffer-Videorekorder (VCR) aufzuzeichnen. Im Falle eines Problems oder Sicherheitsvorfalls kann dann die daraus resultierende Aufzeichnung untersucht werden. Es ist auch möglich, einen Video- oder Infrarot-Bewegungsdetektor zu verwenden, so dass der VCR nichts aufzeichnet, es sei denn, es bewegt sich etwas im überwachten Gebiet. Dies verringert den Bandverbrauch und erleichtert das Auffinden von Filmlänge, die von Interesse ist. Trotzdem ist nach wie vor ein VCR erforderlich, was eine relativ komplexe und teuere Komponente darstellt, die mechanischen Fehlern unterliegt und regelmäßig gewartet werden muss, zum Beispiel durch Reinigung der Videoköpfe. Außerdem tendieren Infrarot-Bewegungsdetektoren dazu, falsche Erfassungen zu erzeugen.
Einen anderen bekannten Ansatz stellt die Verwendung eines volldigitalen Bild erzeugenden Videosystems dar, das jedes Videobild unmittelbar nach dessen Erfassung in ein komprimiertes digitales Format umwandelt. Die digitalen Daten werden dann in einer herkömmlichen Datenbank gespeichert (wie zum Beispiel einer Plattenfarm, die durch eine Bandjukebox gesichert ist). Dieser Ansatz ist relativ teuer, erfordert eine erhebliche Menge an Speicherplatz und hilft einem Bediener in keiner Weise beim Auffinden von Einzelbildern, die von Interesse sind.
In einem anderen Ansatz werden eine Videokamera und ein Personal Computer verwendet, um Personen zu erfassen und zu verfolgen, und das erste Bild, das bestimmte Alarmbedingungen erfüllt, wird gespeichert. Dieses System versucht jedoch nicht, eine gute Ansicht der Person auszuwählen, und folglich kann es vorkommen, dass die Person auf dem gespeicherten Bild mit dem Rücken zur Kamera abgebildet ist, wodurch es schwer oder unmöglich wird, diese bestimmte Person zu identifizieren. Ein anderes bekanntes System zeigt eine Bewegungsbahn einer erkannten Person, die sich im überwachten Gebiet befindet, an aber es verwirft die Bewegungsbahn, nachdem die Person das überwachte Gebiet verlassen hat.
WO 95/24702 zeigt ein Auswertungssystem für Überwachungskameras, das Objekte innerhalb eines Feldes auf einem Überwachungsbild herauszieht und ein Signal liefert, wenn definierte Objektmerkmale identifiziert werden.
All diese bekannten Ansätze sind im Allgemeinen angebracht für ihre beabsichtigten Zwecke, aber sie sind nicht in allen Hinsichten zufrieden stellend. Sie beinhalten beispielsweise Hardware, die relativ teuer und nicht sonderlich kompakt ist. Sie verwenden häufig einen VCR, der mechanischen Fehlern unterliegt und regelmäßig gewartet werden muss. Einige Systeme speichern alle eingehenden Videoinformationen, wodurch eine erhebliche Menge an Speicherplatz benötigt wird und es schwer ist, Ereignisse von Interesse zu finden.
Dieses bekannte System beinhaltet ein mit rechnerunterstütztem Zeichnen (CAD) hergestelltes Modell der Umgebung oder des überwachten Gebiets, das als Grundlage für die Karte dient. Außerdem müssen zur genauen Bestimmung der Stelle auf der Karte, an der ein Objekt in den erfassten Bildern identifiziert wurde, Parameter der Kamera bestimmt und in den Computer eingespeist werden. Die Kameraparameter beinhalten nicht nur interne Parameter, wie zum Beispiel die Brennweite und die Anzahl an Millimetern pro Pixel, sondern auch externe Parameter, wie zum Beispiel den Standort und die Ausrichtung der Kamera.
Wenn dieses bekannte System in Betrieb ist, wird der Standort eines Objekts in einem Videobild auf der Karte durch eine Formel festgestellt, die durch das Invertieren von Gleichungen, die die Bilderzeugungsgeometrie definieren, abgeleitet wurde. Der erforderliche Aufbau und die Initialisierung dieses Systems ist komplex und zeitaufwendig. Die Bestimmung aller zugehörigen internen und externen Parameter der Kamera und die Eingabe dieser in das Computersystem stellt eine komplexe und zeitaufwendige Aufgabe dar. Auch die Vorbereitung des CAD-Modells des überwachten Gebiets kann eine langsame und zeitaufwendige Aufgabe darstellen.
Außerdem können immer noch Fehler auftreten, selbst wenn bei der Bestimmung der Kameraparameter und der Vorbereitung des CAD-Modells mit Sorgfalt gearbeitet wird. Ein Objekt, das beispielsweise von der Kamera visuell wahrnehmbar ist, da es auf einer Seite einer Wand ist, die sich am nächsten bei der Kamera befindet, kann auf der Karte inkorrekt auf der gegenüberliegenden Seite dieser Wand positioniert sein, wo es für die Kamera in Wirklichkeit gar nicht visuell wahrnehmbar wäre. Fehler dieser Art sind sogar noch problematischer, wenn die Kameraparameter und das CAD-Modell nicht sorgfältig eingerichtet werden.
Heute gibt es nun Videokameras, die an einen Computer gekoppelt werden können, und es gibt Softwareprogramme, die Videobilder von solchen Kameras in ein Dokument mit dem Format Hyptertext Mark-Up Language (HTML) konvertieren können, oder anders ausgedrückt in ein Dokument, das mit dem als World Wide Web (WWW) bekannten Internetstandard kompatibel ist. Außerdem werden Geräte für personenbezogene Datenübertragung, wie zum Beispiel Mobiltelefone, Pager und PDAs immer beliebtere Handelsprodukte, da sich die drahtlose Übertragungstechnologie immer weiter verbreitet und erschwinglich wird. Genau gesagt gibt es jetzt ein tragbares Telefon, das eine kleine Videoanzeige hat, und das einen WWW-kompatiblen Browser umfasst, der es ermöglicht, mit der tragbaren Einheit HTML-Dokumente vom Internet herunterzuladen und anzuzeigen.
Gleichzeitig sind Haushaltssicherheitssysteme alltäglicher geworden. Aber selbst die höchstentwickelten Haushaltssicherheitssysteme sind durch rudimentäre Vorrichtungen für einen Fernzugriff durch den Eigentümer begrenzt. Außerdem wird relativ häufig Fehlalarm ausgelöst. Selbst wenn der Eigentümer über den Alarm in Kenntnis gesetzt wird, gibt es keinen bequemen und kostengünstigen Weg für den Eigentümer, herauszufinden, ob es sich um einen Fehlalarm handelt. Bestehende Systeme benachrichtigen zum Beispiel einen Eigentümer eventuell über einen möglichen Einbruch oder ein anderes Vorkommnis mit Hilfe eines automatischen Telefonanrufs oder einer Funkrufnachricht, aber der Eigentümer hat keine Möglichkeit, zu verifizieren, ob es sich um ein tatsächliches Problem oder nur um einen Fehlalarm handelt.
Während diese bestehenden Überwachungssysteme im Allgemeinen angebracht für ihre beabsichtigten Zwecke sind, sind sie nicht in allen Hinsichten zufrieden stellend. Selbst wenn, zum Beispiel und wie oben erwähnt, ein Eigentümer über einen Funkruf oder einen Telefonanruf über ein Problem oder ein anderes Ereignis von Interesse benachrichtigt wird, gibt es keine günstige Möglichkeit für den Eigentümer, herauszufinden, ob das Ereignis ein tatsächliches Problem oder einen Fehlalarm darstellt, geschweige denn von praktisch jedem Fernstandort aus. Außerdem lassen es bestehende Systeme nicht zu, dass der Betrieb der Kamera von praktisch jedem Fernstandort aus angepasst werden kann.
Zusammenfassung der Erfindung
Man kann aus dem Vorhergehenden schließen, dass auf dem Gebiet der automatischen Überwachung der Bedarf für ein Verfahren aufgekommen ist, das verlässlich ist und auf intelligente Weise ausgewählte bedeutende Informationen speichert und dabei die Speicherkapazität minimiert.
In Übereinstimmung mit einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird ein Verfahren geliefert, das diesen Bedarf anspricht und das folgendes einschließt: das regelmäßige Erfassen eines Bildes des Gebiets, die Subtraktion jedes erfassten Bildes von einem Referenzbild, die Identifikation eines sich bewegenden Objekts durch das Verarbeiten jeder veränderten Region, in der ein aktuell erfasstes Bild vom Referenzbild abweicht, und die Definition eines Objektbildes als Teil des aktuell erfassten Bildes, das jedem identifizierten sich bewegenden Objekt entspricht. Das Verfahren ist dadurch gekennzeichnet, dass es ferner folgendes umfasst: nach der ersten Identifizierung eines sich bewegenden Objekts Speicherung des Objektbildes, das dem erfassten sich bewegenden Objekt entspricht; und für jedes nachfolgend erfasste Bild automatische Auswahl eines vorherigen Objektbildes oder eines aktuellen Objektbildes jedes erfassten sich bewegenden Objekts unter Verwendung von Auswahlkriterien, Speicherung des ausgewählten Objektbildes jedes identifizierten Objekts und Verwerfen des nicht ausgewählten Objektbildes jedes identifizierten sich bewegenden Objekts, wobei ein einzelnes Objektbild jedes entsprechenden sich bewegenden Objekts gespeichert wird.
Vorzugsweise wird ein Objektbild eines identifizierten Objekts als Rahmen definiert, der gerade groß genug ist, um die entsprechende veränderte Region zu beinhalten, wobei die Auswahlkriterien dasjenige des vorherigen Objektbilds oder des aktuellen Objektbilds auswählen, dessen Rahmenunterseite niedriger im erfassten Bild ist. Alternativ dazu wählen die Auswahlkriterien dasjenige des vorherigen Objektbilds oder des aktuellen Objektbilds aus, das einen größeren Rahmen aufweist, wenn die Unterseite des Rahmens des vorherigen Objektbildes genau so niedrig wie die Unterseite des Rahmens des aktuellen Objektbildes ist.
In einem anderen Ausführungsbeispiel wählen die Auswahlkriterien dasjenige des vorherigen Objektbilds oder des aktuellen Objektbilds aus, dessen entsprechende veränderte Region größer ist.
In einem weiteren bevorzugten Ausführungsbeispiel werden automatisch Bahninformationen gespeichert, die die Bewegungsbahn jedes erfassten sich bewegenden Objekts identifizieren, und das Verfahren umfasst ferner folgendes: Beibehaltung der Bahninformationen und des aktuell ausgewählten Objektbildes, nachdem das sich bewegende Objekt nicht mehr in den erfassten Bildern zu identifizieren ist; und Anzeigen des Referenzbildes, in das eine Bahn, die den Bahninformationen eines ausgewählten Objekts entspricht, und ein gespeichertes Objektbild des ausgewählten sich bewegenden Objekts an einer Stelle eingeblendet sind, die der Stelle des sich bewegenden Objekts zu dem Zeitpunkt entspricht, als das gespeicherte Objektbild identifiziert wurde.
Kurze Beschreibung der Zeichnungen
Aus der folgenden ausführlichen Beschreibung erhält man ein besseres Verständnis der vorliegenden Erfindung, wenn man diese mit den beigefügten Zeichnungen betrachtet, in denen:
1 eine schematische Darstellung eines automatischen Überwachungssystems darstellt, das die vorliegende Erfindung verkörpert;
2A, 2B, 2C, 2D, 2E, 2F, 2G und 2H sind schematische Darstellungen von zweidimensionalen Bildern, die aufeinander folgende Schritte darstellen, die vom System aus 1 bei der Verarbeitung von Bildern, die von einer Videokamera erhalten wurden, ausgeführt werden;
3 ist ein Bewegungsanalysediagramm, das anzeigt, wie die Bewegung von Objekten in einem Videobild vom System aus 1 analysiert wird;
4 ist eine schematische Draufsicht eines Stockwerksgrundrisses eines Gebäudes, in dem das System aus 1 benutzt werden kann;
5 ist eine schematische Darstellung eines Referenzbildes, das vom System aus 1 für das Gebäude aus 4 geliefert wird;
6 ist eine schematische Darstellung eines Videobildes, das dem Bild aus 5 ähnelt, aber das die Anwesenheit einer Person zeigt;
7 ist eine schematische Darstellung einer Verzeichnisstruktur, die auf einem Festplattenlaufwerk im System aus 1 verwendet wird;
8 ist eine schematische Darstellung einer Anzeige, die auf dem Bildschirm eines Computermonitors angezeigt wird, der ein Bestandteil des Systems aus 1 ist;
9 ist ähnlich wie 8 eine schematische Darstellung einer Anzeige, die auf dem Bildschirm des Computermonitors aus 1 angezeigt wird;
10 ist eine schematische Draufsicht eines Teils eines Stockwerksgrundrisses, in dem das System aus 1 verwendet werden kann;
11 ist eine schematische Darstellung eines Referenzvideobildes, das vom System aus 1 für das Gebäude aus 10 geliefert wird;
12 ist eine schematische Darstellung eines Teils einer Videoanzeige, die vom System aus 1 geliefert wird, um es einem Bediener zu ermöglichen, eine Abbildungsfunktion zwischen einem erfassten Videobild des überwachten Gebiets und einer Karte des überwachten Gebiets zu definieren;
13 ist ähnlich wie 12 eine schematische Darstellung, die aber eine exemplarische Anzeige zeigt, die vom System aus 1 während dem normalen Betrieb erzeugt wird;
14 ist eine schematische Darstellung einer Überwachungsvorrichtung, die die vorliegende Erfindung verkörpert, wobei die Überwachungsvorrichtung zwei Videokameras umfasst, ein System, das Videobilder von den Kameras verarbeitet, und eine tragbare Einheit, die durch eine drahtlose Verbindung mit dem System gekoppelt ist;
15 ist ein Flussdiagramm auf oberster Ebene von Bildverarbeitungstechniken, die von der Vorrichtung aus 14 angewendet werden;
16 ist eine schematische Darstellung eines exemplarischen Bildschirmbildes, das auf der Anzeige der tragbaren Einheit aus 14 angezeigt wird;
17A–17C sind jeweils schematische Darstellungen von Videobildern, die veranschaulichen, wie Videobilder von der Vorrichtung aus 14 verarbeitet werden;
18 ist eine schematische Darstellung einer in 2G abgebildeten Region von Interesse, die auf einem in 2A abgebildeten Referenzbild eingeblendet ist;
19 ist eine schematische Darstellung des Umrisses der Region von Interesse, die in 2G abgebildet ist;
20 ist eine schematische Darstellung des Umrisses aus 19, die auf dem in 2A abgebildeten Referenzbild eingeblendet ist;
21 ist eine schematische Darstellung einer Region, die vom Bild aus 2B abgeleitet ist, von der ein Teil Grauskala-Informationen beinhaltet und ein anderer Teil keine Grauskala-Informationen beinhaltet; und
22 ist eine schematische Darstellung, die die Unterschiede zwischen zwei aufeinander folgenden erfassten Bildern darstellt.
Ausführliche Beschreibung der Erfindung
1 stellt eine schematische Darstellung eines Überwachungssystems 10 dar, das die vorliegende Erfindung verkörpert und das dafür verwendet wird, Aktivitäten in einem ausgewählten Gebiet oder in einer ausgewählten Region zu überwachen. Das Überwachungssystem 10 umfasst eine Kameraeinheit 12 und einen Arbeitsrechner 13, die durch ein unter 14 schematisch abgebildetes Netzwerk operativ gekoppelt sind. Bei dem Netzwerk 14 kann es sich um ein lokales Netzwerk, das Internet, irgendeine andere Netzwerkart, eine Modemverbindung oder eine Kombination solcher Technologien handeln. Bei dem Arbeitsrechner 13 kann es sich um einen Personal Computer, einschließlich eines Prozessors 17, einer Tastatur 18, einer Maus 19 und eines Bildschirms 21 handeln.
Die Kameraeinheit 12 umfasst eine Videokamera 23, bei der es sich im offenbarten Ausführungsbeispiel um eine Monochrom-Kamera handelt. Die vorliegende Erfindung ist jedoch auch für den Gebrauch mit einer Farb-Videokamera oder einer anderen Art zweidimensionalen Bilddetektors, wie zum Beispiel einem Infrarotdetektor geeignet. Die Videokamera 23 umfasst einen Detektor 24, bei dem es sich um ein Ladungskoppelelement (CCD) oder ein CMOS-Bildsensorelement handeln kann. Die Videokamera 23 umfasst des Weiteren nicht abgebildete Optik bekannter Art, die ein Bild auf dem Detektor 24 fokussiert.
Die Kameraeinheit 12 umfasst des Weiteren einen Bildverarbeitungsabschnitt 27. Der Bildverarbeitungsabschnitt 27 umfasst eine Video-Schnittstellenschaltung 28, die die Ausgabe des Detektors 24 empfängt, und eine Netzwerk-Schnittstellenschaltung 29, die die Datenübertragung über das Netzwerk 14 ermöglicht. Der Bildverarbeitungsabschnitt 27 könnte auch ein Modem beinhalten, zusätzlich zu oder an Stelle der Schnittstellenschaltung 29, um eine Datenübertragung über Telefonleitungen zu ermöglichen. Der Bildverarbeitungsabschnitt 27 umfasst des Weiteren einen Prozessor 33 und einen Speicher, wie zum Beispiel ein Festplattenlaufwerk 34. Das Festplattenlaufwerk 34 könnte optional durch einen anderen Typ geeigneten nichtflüchtigen Speichers ersetzt werden, wie zum Beispiel einen Flash-Speicher oder einen Speicher mit Netzausfallschutz.
Im offenbarten Ausführungsbeispiel befindet sich der Bildverarbeitungsabschnitt 27 physisch innerhalb des Gehäuses der Kameraeinheit 12. Folglich ist die Kameraeinheit 12 ein eigenständiges Gerät, das direkt mit einer Telefonleitung oder einem Netzwerk gekoppelt werden kann, wie zum Beispiel dem Netzwerk 14. Man wird jedoch erkennen, dass der Bildverarbeitungsabschnitt 27 alternativ auch mit Hilfe eines Personal Computers implementiert sein könnte, der sich physisch getrennt von der Videokamera 23 befindet und eine Einsteck-Video-Capture-Karte aufweist, die als Video-Schnittstellenschaltung dient, und der eine Einsteck-Netzwerk-Schnittstellenkarte aufweist, die als Netzwerk-Schnittstellenschaltung dient. Ferner wäre es möglich, obwohl das offenbarte System nur eine Videokamera 23 umfasst, zwei oder mehr Videokameras mit einem einzigen Bildverarbeitungsabschnitt zu verwenden.
Die anfängliche Verarbeitung von Videobildern durch den Arbeitsrechner 13 wird nun unter Bezugnahme auf die 2A–2H und 3 beschrieben. Genauer gesagt, handelt es sich bei 2A um eine schematische Darstellung eines Videobildes, das von der Videokamera 12 erzeugt wird, wenn sie auf ein Gebiet ausgerichtet ist, das in diesem Beispiel willkürlich als Ecke eines Raumes gewählt wurde. Das Videobild aus 2A wird als Referenzbild gespeichert. 2B ist ein ähnliches Videobild, das von der Kamera 12 zu einem späteren Zeitpunkt erhalten wurde, nachdem ein Objekt 41 in das überwachte Gebiet eingefügt wurde. In diesem Fall handelt es sich bei dem Objekt 41 um eine Person, der in die Ecke des Raumes und somit in den Sehbereich der Videokamera 12 gelaufen ist. Die Videokamera 12 ist stationär und somit ist der einzige Unterschied zwischen dem Bild aus 2A und dem aus 2B die Anwesenheit der Person 41 in 2B. Die Anwesenheit und die Bewegung der Person 41 werden folgendermaßen erfasst.
Zuerst wird das Grauskalabild aus 2B vom Grauskalabild aus 2A auf Pixelbasis subtrahiert. Dann wird der absolute Wert der Differenz für jedes Pixel ermittelt und das Ergebnis ist das Grauskala-Differenzbild aus 2C. Danach wird das Differenzbild aus 2C einem Subsampling unterzogen, um die Anzahl an Pixel zu verringern, zum Beispiel auf ein Bild mit 128 mal 128 oder 256 mal 256 Pixel. Das sich daraus ergebende Bild mit niedriger Auflösung ist in 2D abgebildet. Man wird erkennen, dass es alternativ möglich ist, jedes der Bilder aus den 2A und 2B einem Subsampling zu unterziehen, bevor die Differenz und der absolute Wert für jedes Pixel ermittelt wird, wodurch die Anzahl an zu verarbeitenden Pixeln verringert wird, und folglich auch die Zeit, die benötigt wird, bis man das Bild aus 2D erhält, verringert wird.
Das Differenzbild mit niedriger Auflösung aus 2D wird dann mit einem Schwellwert verglichen. Anders ausgedrückt, wird der Grauskalawert für jedes Pixel im Bild aus 2D mit einem vorher festgelegten Schwellwert verglichen und das Pixel wird dann auf entweder an oder aus gesetzt (schwarz oder weiß), je nachdem, ob der Wert über oder unterhalb des Schwellwerts liegt. Das sich daraus ergebende Schwellwertbild ist in 2E abgebildet. Jedes Pixel im Schwellwertbild aus 2E kann durch eine binäre „1" oder eine binäre „0" dargestellt werden, je nachdem, ob das Pixel als an oder aus angesehen wird.
Danach wird für jedes Pixel des Schwellwertbildes aus 2E eine morphologische Verarbeitung durchgeführt, indem erst eine erweiternde Operation und dann eine erodierende Operation durchgeführt wird. Genauer gesagt, wird jedes Pixel so verarbeitet, dass es als Mittelpixel in einer Matrix von drei auf drei Pixel angesehen wird. Während der erweiternden Operation jedes Pixels im Schwellwertbild aus 2E wird für das Pixel von Interesse eine logische „1" gesetzt, wenn eines der acht benachbarten Pixel in diesem Bild eine logische „1" aufweist. Das sich daraus ergebende erweiterte Bild ist in 2F abgebildet. Während der anschließenden erodierenden Operation jedes Pixels im erweiterten Bild aus 2F wird für das Pixel von Interesse eine logische „0" gesetzt, wenn eines der acht benachbarten Pixel in diesem Bild eine logische „0" aufweist. Das Ergebnis ist das erodierte Bild aus 2G.
Das erodierte Bild aus 2G wird dann analysiert, um jede Region zusammen hängender Pixel mit logischer „1" zu identifizieren. Jede solche Region zusammen hängender Pixel mit logischer „1" stellt eine veränderte Region dar, die einem Objekt entspricht, das in das Bild aus 2B eingefügt wurde und das im Bild aus 2A nicht vorhanden war, wie zum Beispiel die Person 41. Diese Analyse kann unter Anwendung bekannter Techniken durchgeführt werden, wie zum Beispiel Lauflängenkodierung gefolgt von einer Zusammenhangskomponentenanalyse.
Im Hinblick auf jede veränderte Region stellt der Bildverarbeitungsabschnitt 27 einen Rahmen für die veränderte Region fest. Ein Beispiel eines Rahmens ist unter 43 in 2H abgebildet. Man wird erkennen, dass es sich bei dem Rahmen 43 um einen rechteckigen Rahmen handelt, der gerade groß genug ist, um die gesamte veränderte Region zu beinhalten. Das heißt, dass sich kein Pixel der veränderten Region außerhalb des Rahmens befindet, aber jede Seite des Rahmens mindestens ein Pixel der veränderten Region berührt.
Die oben beschriebene Bildverarbeitung wird für jedes Bild in einer Reihe von Bildern ausgeführt, die von der Videokamera 12 geliefert werden. Das heißt, dass jedes dieser aufeinander folgenden Bilder hinsichtlich des Referenzbildes der 2A verarbeitet wird, und zwar auf dieselbe Weise, wie oben für das Bild aus 2B beschrieben wurde.
Der Arbeitsrechner 13 führt dann eine Bewegungsanalyse durch, indem er die Bewegung oder Nicht-Bewegung jeder identifizierten veränderten Region über eine Reihe von Frames oder Bildern von der Videokamera verfolgt. Um ein leichteres Verständnis der vorliegenden Erfindung zu ermöglichen, wird eine bekannte Bewegungsanalysetechnik kurz unter Bezugnahme auf 3 zusammengefasst. Obwohl man erkennen wird, dass die Bewegungsanalyse in den Videobildern zweidimensional durchgeführt wird, ist im Diagramm der 3 der Einfachheit halber nur eine Dimension abgebildet.
In 3 stellen die neunzehn vertikalen Linien F0 bis F18 jeweils einen entsprechenden Frame oder ein Bild in einer Reihe von aufeinander folgenden Bildern von der Videokamera 12 dar. In 3 stellt die horizontale Ausdehnung die Zeit dar und die vertikale Ausdehnung stellt eine Dimension der Bewegung eines Objekts innerhalb eines zweidimensionalen Bildes dar. Wenn ein Objekt, das vorher nicht anwesend war, zum ersten Mal erscheint, zum Beispiel bei 51 oder 52, wird dies als „Eintritt"-Ereignis identifiziert. Wenn ein Objekt, das vorher anwesend war, als nicht mehr anwesend erkannt wird, zum Beispiel bei 53 oder 54, wird dies als „Austritt"-Ereignis bezeichnet. Wenn sich ein bestehendes Objekt in zwei Objekte aufteilt, von denen sich eins bewegt und das andere unbeweglich ist, wie zum Beispiel bei 57, dann wird dies als „Deponieren"-Ereignis bezeichnet. Dies würde beispielsweise eintreten, wenn eine Person, die eine Aktentasche trägt, diese auf einem Tisch ablegt und dann weggeht.
Wenn ein sich bewegendes Objekt mit einem unbeweglichen Objekt eins wird und sich dann weiter bewegt, während das unbewegliche Objekt verschwindet, wie bei 58, dann wird dies als „Entfernen"-Ereignis bezeichnet. Dies entspräche einer Situation, in der eine Person auf ein Notebook zuläuft, das auf einem Tisch steht, und dann das Notebook aufnimmt und weggeht. Drei andere Arten von Ereignissen, die nicht speziell in 3 veranschaulicht sind, stellen die Ereignisse „Bleiben", „Bewegen" und „Lichtausschalten" dar. Ein Bleiben-Ereignis tritt ein, wenn ein sich bewegendes Objekt anhält aber weiterhin anwesend bleibt, ohne sich zu bewegen. Ein praktisches Beispiel hierfür stellt eine Situation dar, in der die überwachten Objekte Fahrzeuge auf einem Parkplatz sind und ein Auto in einen Stellplatz fährt und danach unbeweglich bleibt. Ein Bewegen-Ereignis tritt ein, wenn sich ein erfasstes Objekt, das unbeweglich war, erneut bewegt, zum Beispiel, wenn ein Auto, das geparkt war, sich zu bewegen beginnt. Ein „Lichtausschalten"-Ereignis tritt ein, wenn sich das komplette erfasste Bild plötzlich ändert, zum Beispiel, wenn die Lichter in einem überwachten Raum ausgeschaltet werden und der Raum dunkel wird. Ein „Lichtausschalten"-Ereignis kann ohne die komplette Bildverarbeitung erfasst werden, die oben in Zusammenhang mit den 2 und 3 beschrieben wurde.
Es ist bei einem Versuch, ein erfasstes Objekt zu identifizieren, optional auch möglich, eine Identifizierungsanalyse durchzuführen. Wenn der Arbeitsrechner 13 etwas Kenntnis über die Topographie des überwachten Gebiets hat, kann er die Position des Mittelpunkts der Rahmenunterseite des Objekts im Bild dafür verwenden, zu identifizieren, wie weit das Objekt von der Kamera entfernt ist. Dann kann der Arbeitsrechner 13, wenn er weiß, wie groß eine Person in diesem Abstand von der Kamera wäre, die vertikale Höhe des Rahmens im Bild auswerten, um festzustellen, ob das Objekt, das die veränderte Region erzeugt, groß genug ist, um eine Person zu sein. Wenn das Objekt groß genug ist, um eine Person zu sein, kann angenommen werden, dass es sich um eine Person handelt.
Alternativ hierzu könnte der Arbeitsrechner 13 die Endpunkte der Unterseite eines Rahmens von einem Bild auf einer Karte des betrachteten Schauplatzes abbilden. Angesichts des Maßstabs der Karte könnte der Arbeitsrechner 13 die Entfernung zwischen diesen beiden Punkten auf der Karte bestimmen, die auch die Entfernung zwischen den beiden Punkten im Bild wäre, und somit die Länge der Rahmenunterseite im Bild wäre. Der Computer könnte dann die Höhe des Rahmens im Bild bestimmen und auswerten, ob das fragliche Objekt groß genug ist, um eine Person zu sein. Wenn das Objekt groß genug ist, um eine Person zu sein, nimmt der Arbeitsrechner 13 wiederum an, dass es eine Person ist. Dieses Verfahren wird unten weiter beschrieben.
Wenn das Objekt nicht groß genug ist, um eine Person zu sein, kann der Arbeitsrechner 13 ein Objektanalyseverfahren durchführen, indem er das Bild des Objekts analysiert, um zu versuchen, dieses als eines von mehreren gebräuchlichen Objekten, wie zum Beispiel eine Aktentasche, ein Notebook, einen Behälter oder einen Computerbildschirm zu klassifizieren. Wenn das Objekt durch diesen Ansatz nicht spezifisch identifiziert werden kann, wird es schließlich als ein „unbekanntes" Objekt identifiziert.
Um das Verständnis eines Aspekts der vorliegenden Erfindung zu ermöglichen, wird nun eine spezifische exemplarische Anwendungsmöglichkeit für das System 10 aus 1 offenbart. Man wird jedoch erkennen, dass es zahlreiche andere Anwendungsmöglichkeiten und Umgebungen gibt, in denen das System 10 aus 1 verwendet werden könnte. In Hinblick auf die exemplarische Anwendungsmöglichkeit stellt 4 eine schematische Draufsicht eines Teils eines Gebäudes, das einen langen Gang 71 mit einer Nische 72 in der Nähe eines Endes aufweist. Die Kameraeinheit 12 aus 1 ist stationär direkt unter der Decke und an einem Ende des Gangs 71 so befestigt, dass sie den Gang 71 hinunter und leicht nach rechts gerichtet ist. Die Kameraeinheit 12 kann somit den Gang 71 und die Nische 72 überwachen. Am anderen Ende des Gangs 71 mündet dieser in einen weiteren querlaufenden Gang 73. Noch ein weiterer querlaufender Gang 74 erstreckt sich nach rechts vom Gang 71 aus an einer Stelle, die zwischen der Nische 72 und dem Gang 73 liegt. Entlang der linken Seite des Gangs 71 gibt es drei mit Zwischenräumen angeordnete Türen 76, 77 und 78. Entlang der rechten Seite des Gangs 71 befindet sich eine einzelne Tür 79, die neben dem Gang 74 und an einer Seite des Gangs 74 liegt, die sich am nächsten bei der Kameraeinheit 12 befindet.
5 ist eine schematische Darstellung eines Videobildes, das von der Kameraeinheit 12 in der Umgebung von 4 erhalten wird und das somit den Gang 71 und die Nische 72 zeigt. Der Erörterung halber wird davon ausgegangen, dass das Bild aus 5 als Referenzbild gespeichert wurde, analog dem Referenzbild, das oben in Zusammenhang mit 2A erörtert wurde. 6 ist eine schematische Darstellung eines weiteren Videobildes von der Kameraeinheit 12, allerdings nachdem im überwachten Gebiet ein Objekt 86, das im Referenzbild aus 5 nicht anwesend war, aufgetaucht ist.
In diesem Fall handelt es sich beim Objekt 86 um eine Person, die am anderen Ende den Gang 71 betreten hat und dann den gesamten Gang 71 hinunter zur Nische 72 gegangen ist. Nachdem die Kameraeinheit das Videobild aus 6 erzeugt hat, ging die Person 86 weiter den Gang hinunter in Richtung der Kameraeinheit 12 und danach unter der Kameraeinheit durch, so dass sie aus dem Sehbereich der Kameraeinheit verschwand. Während der Zeit, in der sich die Person 86 im Sehbereich der Kameraeinheit 12 befand, erzeugte die Kameraeinheit eine Folge von Videobildern, wie die Person den Gang 71 herunterging. Ein ausgewähltes Exemplar dieser Videobilder ist in 6 abgebildet. Jedes der Videobilder in dieser Folge von Bildern wurde hinsichtlich des Referenzbildes aus 5 auf gleiche Weise verarbeitet, wie oben in Zusammenhang mit 2 beschrieben. In Zusammenhang mit der Verarbeitung jedes solchen Bildes ermittelt das System für jedes Bild einen Rahmen um die veränderte Region, der der Person 86 entspricht. Der Rahmen für die Person 86 ist unter 87 im Bild von 6 abgebildet.
Der Bildverarbeitungsabschnitt 27 aus 1 speichert nicht jedes der zahlreichen Bilder der Person 86 ab, die man erhält, während die Person den Gang 71 hinunter geht. Obwohl einige bekannte Systeme dies tun, erfordert dies eine erhebliche Menge an Speicher für die Speicherung all dieser Videoinformationen. Stattdessen speichert das System 10 lediglich ausgewählte Informationen, wie unten erläutert.
Genauer gesagt, hat der Bildverarbeitungsabschnitt 27 bereits das Referenzbild aus 5 auf dem Festplattenlaufwerk 34 gespeichert. Im offenbarten Ausführungsbeispiel wird das Referenzbild aus 5 zunächst einem Subsampling unterzogen und danach wird die Version des Bildes mit niedriger Auflösung auf dem Festplattenlaufwerk 34 gespeichert, um die für jedes solches Bild erforderliche Menge an Speicherplatz zu verringern. Das Hauptinteresse gilt Objekten, die in das überwachte Gebiet eintreten, und nicht dem überwachten Gebiet selbst, und somit ist ein Bild des überwachten Gebiets mit niedriger Auflösung für die meisten Anwendungen ausreichend.
Der Bildverarbeitungsabschnitt 27 bestimmt für jedes erfasste Objekt, wie die Person 86, in jedem Bild auch die kartesischen Koordinaten des Mittelpunkts der Unterseite des Rahmens dieses erfassten Objekts. Diese Informationen werden auf dem Festplattenlaufwerk gespeichert. Anders ausgedrückt, wird für jedes erfasste Objekt ein kartesisches Koordinatenpaar für dieses Objekt für jedes Videobild, in dem das Objekt vorhanden ist, gespeichert. Bezüglich eines bestimmten Objekts kann die Menge von kartesischen Koordinatenpaaren für alle Bilder, in denen das Objekt anwesend war, als Verfolgung der Bewegung des Objekts innerhalb des überwachten Gebiets dienen, wie später ausführlicher erörtert wird.
Der Bildverarbeitungsabschnitt 27 speichert auch ein ausgewähltes Bild jedes erfassten Objekts. Im offenbarten Ausführungsbeispiel handelt es sich bei dem ausgewählten Bild lediglich um einen Teil des gesamten Bildes von der Videokamera 23. Konkret handelt es sich um den Teil des Bildes, der sich innerhalb des Rahmens für das Objekt von Interesse befindet. Somit wäre dies, wenn das ausgewählte Bild für die Person 86 vom Videobild aus 6 abgeleitet wäre, der Bereich dieses Bildes, der sich innerhalb des Rahmens 87 befindet. Dieses ausgewählte Bild oder dieser ausgewählte Bildteil wird in voller Auflösung gespeichert, um eine Ansicht des erfassten Objekts in erstklassiger Qualität zu haben. Der Grund dafür liegt darin, dass häufig eine Ansicht in erstklassiger Qualität zu einem späteren Zeitpunkt von Nutzen ist, zum Beispiel, um die Identifizierung einer bestimmten Einzelperson zu ermöglichen. Da das ausgewählte Bild lediglich einen Teil des gesamten Videobildes darstellt, ist der Speicherplatz, der für die Speicherung des ausgewählten Bildes in voller Auflösung benötigt wird, häufig niedriger, als der Speicherplatz, der für die Speicherung des gesamten Videobilds in verringerter Auflösung benötigt würde.
Die Auswahl des bestimmten zu speichernden Bildes ist eine automatische Bestimmung, die durch einfache Heuristik getroffen wird. Bei den meisten Anwendungen handelt es sich bei den Objekten, die von primärem Interesse sind, um Menschen und es ist daher wünschenswert, dass die Auswahl eines Bildes favorisiert wird, auf dem die Person im Allgemeinen zur Kameraeinheit 12 schaut und angemessen nahe an der Kameraeinheit 12 ist. In dieser Hinsicht wird angenommen, dass sich die Person mit dem Gesicht nach vorne in Richtung der Kamera bewegt, wenn sich die Rahmenunterseite in aufeinander folgenden Bildern nach unten bewegt. Auf der anderen Seite wird, wenn sich die Rahmenunterseite nicht nach unten oder nach oben bewegt, trotzdem die neue Ansicht einer vorherigen Ansicht bevorzugt, wenn das Objekt größer erscheint, wie es durch eine Erhöhung der vertikalen Größe des Rahmens widergespiegelt wird.
Somit speichert der Bildverarbeitungsabschnitt 27, wenn ein Objekt, wie zum Beispiel eine Person, zum ersten Mal auftaucht, temporär das erste Videobild, das die Person enthält, und bestimmt dieses Bild vorläufig als ausgewähltes Bild. Danach überprüft der Bildverarbeitungsabschnitt 27 bei jedem nachfolgenden Bild, ob die Unterseite des Rahmens im aktuellen Bild niedriger als die Unterseite des Rahmens im vorläufig ausgewählten Bild ist. Wenn dies der Fall ist, wird das vorherige Bild verworfen und das aktuelle Bild wird vorläufig als ausgewähltes Bild bestimmt.
Andererseits überprüft der Bildverarbeitungsabschnitt 27, wenn die Unterseite des Rahmens des Objekts die gleiche vertikale Position im aktuellen Bild wie im vorläufig ausgewählten vorherigen Bild hat, ob die vertikale Höhe des Rahmens im aktuellen Bild größer als die vertikale Höhe des Rahmens im vorläufig ausgewählten Bild ist. Wenn dies zutrifft, wird das vorherige Bild verworfen und das aktuelle Bild wird vorläufig als ausgewähltes Bild bestimmt.
Wenn das Objekt schließlich das überwachte Gebiet verlässt, nimmt der Bildverarbeitungsabschnitt 27 das vorläufig ausgewählte Videobild und speichert den Teil dieses Videobildes auf dem Festplattenlaufwerk 34, der sich innerhalb des Rahmens befindet. Wie oben erörtert, wird dieser Teil des Bildes in voller Auflösung gespeichert.
Obwohl das offenbarte Ausführungsbeispiel obige Auswahlkriterien anwendet, um Nahaufnahmen von Gesichtern von Menschen zu favorisieren, leuchtet ein, dass andere Anwendungsmöglichkeiten andere Auswahlkriterien erfordern können. Wenn zum Beispiel die Kameraeinheit 12 für die Überwachung von Fahrzeugen verwendet würde und es wünschenswert wäre, Nahaufnahmen der hinteren Nummernschilder dieser Fahrzeuge zu favorisieren, so könnten die Auswahlkriterien so angepasst werden, dass dies erreicht wird.
Im Zusammenhang mit jedem erfassten Objekt speichert der Bildverarbeitungsabschnitt 27 auf dem Festplattenlaufwerk 34 auch bestimmte andere Informationen, einschließlich einer vom Menschen lesbaren Zeitmarke, die das Datum und die Zeit anzeigt, wann das Objekt erfasst wurde, wobei der Name der Plattendatei das Referenzbild enthält, das verwendet wurde, als das Objekt im überwachten Gebiet anwesend war, und ein Schlüsselwort, das anzeigt, wie das Objekt in das überwachte Gebiet eintrat. Hinsichtlich letzterem sind die erlaubten Schlüsselwörter im offenbarten Ausführungsbeispiel „Eintritt", „Deponieren" und „Sonstiges", aber es leuchtet ein, dass zusätzliche Schlüsselwörter oder weniger Schlüsselwörter erlaubt sein können.
Mit der Zeit kann sich der Hintergrund im überwachten Gebiet ändern. So kann sich das Umgebungslicht durch Variationen des Sonnenlichts, das durch Fenster eintritt, durch Öffnen und Schließen von Fensterläden, durch Öffnen und Schließen von Türen im Inneren, durch Anschalten und Ausschalten von Innenlicht usw. ändern. Auf ähnliche Weise können Leute Objekte im überwachten Gebiet deponieren, entfernen oder umstellen. Jede derartige Änderung schafft eine permanent veränderte Region zwischen dem Referenzbild und jedem aktuellen Videobild. Ohne ein regelmäßig aktualisiertes Referenzbild fährt das System damit fort, diese Unterschiede oder veränderten Regionen als erfasste Objekte zu verfolgen. Änderungen des Lichts würden somit als erfasste Objekte behandelt werden, wodurch Bilder gespeichert würden, die nicht wirklich von Interesse sind und lediglich Speicher auf dem Festplattenlaufwerk 34 vergeuden.
Um dies zu verhindern, überprüft der Bildverarbeitungsabschnitt 27 auf eine Situation, in der sich im überwachten Gebiet während einer bestimmten Zeitspanne, zum Beispiel zwanzig Sekunden, nichts verändert hat. In Reaktion auf die Erkennung dieser Situation beendet der Bildverarbeitungsabschnitt 27 die Verfolgung aller erfassten Objekte, die aktiv verfolgt wurden, speichert das aktuelle Videobild als neues Referenzbild und fährt dann mit der Überwachung des überwachten Gebietes unter Verwendung des neuen Referenzbildes fort. Im Allgemeinen bleiben Menschen fast niemals länger als eine oder zwei Sekunden vollständig ruhig stehen und somit ist das Risiko, dass ein Videobild, auf dem sich ein Mensch befindet, als Referenzbild ausgewählt wird, gering.
Unter Bezugnahme auf 1 wurde der Bildverarbeitungsabschnitt 27 der Kameraeinheit 12 so gestaltet, dass er mit dem Internet kompatibel ist, und insbesondere kompatibel mit Internetstandards, die allgemein als World Wide Web (WWW) bekannt sind. Folglich kann die Kameraeinheit 12 direkt mit dem Netzwerk 14 gekoppelt werden und eine Person, die einen Web-Browser auf einer entfernten Einheit, wie zum Beispiel dem Arbeitsrechner 13, verwendet, kann auf die oben erörterten gespeicherten Informationen zugreifen und diese ansehen. Um dies zu bewerkstelligen, speichert der Bildverarbeitungsabschnitt 27 die Resultate seiner Überwachungsaktivitäten auf dem Festplattenlaufwerk 34 auf eine An, die nun unter Bezugnahme auf 7 beschrieben wird.
Genauer gesagt, zeigt 7 die Verzeichnisorganisierung eines Teils des Festplattenlaufwerks 34. In 7 sind die rechteckigen Kästchen 91 bis 96 jeweils eine schematische Darstellung eines entsprechenden Verzeichnisses. Diese Verzeichnisse speichern die Informationen, die sich auf Überwachungsaktivitäten des Bildverarbeitungsabschnitts 27 beziehen. Das Verzeichnis 91 ist ein Unterverzeichnis eines nicht abgebildeten Stammverzeichnisses, die Verzeichnisse 92 bis 94 sind Unterverzeichnisse des Unterverzeichnisses 91 und die Verzeichnisse 95 und 96 sind Unterverzeichnisse des Verzeichnisses 94.
Das Unterverzeichnis 91 enthält eine Datei MASTER.HTML und die Unterverzeichnisse 92 und 93 enthalten jeweils eine entsprechende Datei namens LOGLIST.HTML. Die Dateien MASTER.HTML und LOGLIST.HTML sind jeweils WWW-kompatible Dateien im Format Hypertext Markup Language (HTML) und sie ermöglichen den Zugang zu anderen Informationen, die in der Verzeichnisstruktur aus 7 gespeichert sind. Die Datei MASTER.HTML weist Hypertext-Verknüpfungen auf jede der LOGLIST.HTML-Dateien auf, und die LOGLIST.HTML-Dateien sind jeweils HTML-Shells, die ein Applet aufrufen, das den Zugang zu Dateien ermöglicht, die sich in dem Verzeichnis befinden, das die bestimmte LOGLIST.HTML-Datei enthält.
Das Verzeichnis 92 entspricht einem einzelnen Tag, an dem die Kameraeinheit 12 aus 1 in Betrieb war. Wenn die Kameraeinheit 12 erstmals mit der Überwachung eines bestimmten Gebiets beginnt, existiert das Unterverzeichnis 91, aber die Unterverzeichnisse 92 und 93 existieren nicht. Während des ersten Tages der Überwachung erstellt der Bildverarbeitungsabschnitt 27 das Unterverzeichnis 92 und verwendet dieses für die Speicherung von Informationen bezüglich der Überwachungsaktivitäten dieses Tages. Zu Anfang jedes folgenden Überwachungstages erstellt der Bildverarbeitungsabschnitt 27 ein ähnliches Unterverzeichnis, von denen eins unter 93 abgebildet ist. Der Name jedes solchen Unterverzeichnisses folgt dem Format MM.TT.JJ und identifiziert den Monat, den Tag und das Jahr, für den das Verzeichnis Informationen enthält.
Jedes der Unterverzeichnisse 92 und 93 enthält die oben erwähnte Datei LOGLIST.HTML. Außerdem enthält jedes solche Unterverzeichnis eine LOGLIST-Datei, die eine zusammenfassende Liste darstellt, die alle Log-Einträge des fraglichen Tages identifiziert, wobei jeder Log-Eintrag einem entsprechend erfassten Objekt entspricht. Jedes Unterverzeichnis enthält für jeden Log-Eintrag in seiner LOGLIST-Datei auch eine separate Datei mit dem Namensformat ENTRYX, wobei X für eine ganze Zahl steht. Jede ENTRYX-Datei enthält Einzelheiten bezüglich des bestimmten erfassten Objekts, einschließlich des Namens der Datei, die das Referenzbild enthält, das gültig war, als das Objekt anwesend war, des Schlüsselworts, das anzeigt, wie das Objekt den Schauplatz betrat, der Reihe von kartesischen Koordinatenpaaren, die den Bewegungspfad des Objekts innerhalb des Bildes verfolgen, des ausgewählten Bildes des Objekts in einem Bildformat mit voller Auflösung und zweier kartesischer Koordinatenpaare, die jeweils die Position zweier gegenüberliegenden Ecken des Rahmens des ausgewählten Bildes im Videobild identifizieren.
Die zusammenfassenden Informationen in der LOGLIST-Datei enthalten zwei Elemente für jedes erfasste Objekt, nämlich eine Zeitmarke, die das Datum und die Zeit der Erfassung des entsprechenden Objekts darstellt, und den Namen der ENTRYX-Datei, die Einzelheiten über dieses erfasste Objekt enthält. Im offenbarten Ausführungsbeispiel liegen diese Informationen in der LOGLIST-Datei in ASCII-Format vor.
Die in 7 unter 95 und 96 abgebildeten Unterverzeichnisse entsprechen jeweils einem bestimmten Tag und sie enthalten alle Referenzbilder, die während dieses Tages verwendet wurden. Genauer gesagt, wenn die Kameraeinheit 12 erstmals mit der Überwachung eines ausgewählten Gebiets beginnt, existiert das Unterverzeichnis 94, aber die Unterverzeichnisse 95 und 96 existieren noch nicht.
Während des ersten Tages der Überwachung wird das Unterverzeichnis 95 erstellt und dieses wird für die Speicherung aller Referenzbilder dieses Tages verwendet. Zu Anfang jedes folgenden Überwachungstages wird ein neues Unterverzeichnis erstellt, von denen eins unter 96 abgebildet ist.
Jedes dieser Unterverzeichnisse 95 und 96 weist ein Namensformat MM.TT.JJ auf, das das Datum darstellt, das den in diesem Unterverzeichnis gespeicherten Informationen entspricht. Jedes dieser Unterverzeichnisse 95 und 96 enthält eine Mehrzahl an Dateien mit dem Namensformat REFIMGXX.PGM, wobei XX für eine eindeutige ganze Zahl steht. Jede REFIMGXX.PGM-Datei enthält ein entsprechendes Referenzbild. Jedes Mal, wenn während des Tages ein neues Referenzbild gespeichert wird, wird eine neue REFIMGXX.PGM-Datei erstellt die unter Verwendung der nächst höheren nicht verwendeten ganzen Zahl XX benannt wird.
8 ist eine schematische Darstellung der Anzeige 21 aus 1, wenn ein Bediener den Arbeitsrechner 13 verwendet, um Informationen zu überwachen, die vom Bildverarbeitungsabschnitt 27 auf dem Festplattenlaufwerk 34 gespeichert werden. In 8 verwendet der Bediener einen Web-Browser, der unter dem Handelsnamen NETSCAPE von Netscape Communications Corporation aus Mountainview, California, verkauft wird. Man wird jedoch erkennen, dass alternativ hierzu auch ein gleichwertiger anderer Web-Browser verwendet werden könnte. In 8 hat der Anwender die WWW-Fähigkeiten des Internets aufgerufen, um auf die WWW-kompatible Datei MASTER.HTML im Verzeichnis 91 (7) zuzugreifen, die wiederum die verschiedenen LOGLIST.HTML-Dateien in den Unterverzeichnissen 92 und 93 verwendet hat, um auf Informationen in jeder der entsprechenden LOGLIST-Dateien zuzugreifen. Optional kann die Datei MASTER.HTML von einem Bediener erfordern, ein gültiges Passwort zu liefern, bevor der Bediener Zugriff auf die auf dem Festplattenlaufwerk 34 gespeicherten Informationen erhält.
Ganz oben auf der angezeigten Webseite befindet sich ein Titel 101, der von der Datei MASTER.HTML geliefert wird und die bestimmte Installation oder Anwendung widerspiegelt. Entlang der linken Seite der Webseite befindet sich ein Bildlauffeld 102, in dem die Dateien MASTER.HTML und LOGLIST.HTML eine Liste der Zeitmarken aus allen LOGLIST-Dateien anzeigen, wobei jede Zeitmarke jeweils sowohl ein Datum als auch eine Zeit beinhaltet. Vertikale und horizontale Bildlaufleisten 103 und 104 werden bereitgestellt, wenn die Anzahl an Zeitmarkeneinträgen oder die Länge eines einzelnen Zeitmarkeneintrags größer ist, als auf einmal im Bildlauffeld 102 angezeigt werden kann. Der Bediener hat im Bildlauffeld 102 einen Eintrag hervorgehoben, der einem erfassten Objekt entspricht, das zur angegebenen Zeit am 15. Februar 1997 anwesend war.
Rechts vom Bildlauffeld 102 werden Informationen aus der ENTRYX-Datei angezeigt, die dem ausgewählten Log-Eintrag entsprechen. Genauer gesagt, wird ein Videobild 111 dargestellt, das das Ereignis darstellt, das oben in Zusammenhang mit den 5 und 6 erläutert wurde, nämlich die Erfassung und Verfolgung der Person 86. Das Bild 111 wird erstellt, indem zunächst die REFIMGXX.PGM-Datei, die dem ausgewählten Log-Eintrag 107 entspricht, abgerufen und angezeigt. Dann wird das ausgewählte Bild, das dem Log-Eintrag 107 entspricht, von der ENTRYX-Datei abgerufen, einem Subsampling unterzogen, damit es dieselbe Auflösung wie das Referenzbild erhält, und an Stelle des entsprechenden Teils des Referenzbildes angezeigt. Danach wird der dem ausgewählten Bild zugehörige Rahmen 87 im Bild 111 eingeblendet.
Dann wird unter Verwendung der Reihe von kartesischen Koordinatenpaaren, die in der entsprechenden ENTRYX-Datei gespeichert sind, eine Spur 113 der Bewegung des erfassten Objekts im Bild 111 eingeblendet. Wie oben erläutert stellt die Spur 113 die Bewegung des Mittelpunkts der Unterseite des Rahmens 87 dar und spiegelt somit genau den Weg, den die Person 86 zurückgelegt hat, wider. Dann werden Beschriftungen im Bild 111 eingeblendet, wie bei 116 und 117, die auf den Informationen basieren, die in der ENTRYX-Datei gespeichert sind. In 8 ist die Beschriftung 116 das Wort „Eintritt", das anzeigt, dass die Person 86 in das überwachte Gebiet an ungefähr der Stelle dieser Beschriftung eintrat, oder anders ausgedrückt, am hinteren Ende des Gangs 71. Die Beschriftung 117 ist das Wort „Austritt", das anzeigt, wo die Person 86 aus dem überwachten Gebiet austrat, in diesem Fall durch Weitergehen nach unten den Gang 71 entlang und unter der Kameraeinheit 12 hindurch. Der Rahmen 87, die Spur 113 und/oder die Beschriftungen 116 und 117 können optional in einer oder mehreren unterschiedlichen Farben angezeigt werden, damit sie besser sichtbar sind.
Auf der rechten Seite des Bildlauffeldes 102 und unterhalb des Bildes 111 zeigt der Bildverarbeitungsabschnitt 27 ein weiteres Bild 121 an, das kleiner als das Bild 111 ist. Das Bild 121 entspricht dem Teil des Bildes 111 innerhalb des Rahmens 87, aber es wird mit voller Auflösung und nicht mit der niedrigeren Auflösung angezeigt, die für das größere Bild 111 verwendet wird. Somit sind die Gesichtszüge dieser Person, wenn ein Versuch unternommen wird, eine bestimmte Person zu identifizieren, unter Umständen im Bild mit hoher Auflösung 121 klarer ersichtlich, als im Bild mit verringerter Auflösung 111. Da das gespeicherte Bild 121 unter Anwendung der oben erörterten Kriterien ausgewählt wurde, die dafür ausgelegt sind, Nahaufnahmen von Gesichtern von Menschen zu favorisieren, wird man erkennen, dass das Gesicht der Person 86 sichtbar ist und dass die Person sich näher an der Kamera befindet, als es der Fall gewesen wäre, wenn das System einfach das erste Bild, in dem die Person 86 erfasst worden war, ohne den Versuch gespeichert hätte, irgendwelche Auswahlkriterien anzuwenden.
9 ist ähnlich wie 8 eine schematische Darstellung, die aber eine unterschiedliche Web-Seite zeigt, die von der MASTER.HTML-Datei geliefert wird. Diese Web-Seite enthält ein Bild 131, das das aktuelle Referenzbild darstellt, zum Beispiel das in 5 abgebildete Referenzbild. Der Anwender kann dann eine Maus verwenden, um eine oder mehrere Regionen zu identifizieren, zum Beispiel die Region 132. Der Anwender kann die Region definieren, indem er den Mauszeiger verwendet, um die Ecken der Region zu identifizieren, während er auf jede Ecke klickt. Jedes Mal, wenn der Anwender eine Region definiert, wird diese automatisch mit einer Beschriftung versehen, die einen Buchstaben darstellt. Die Region 132 in 9 wurde zum Beispiel mit der Beschriftung „A" versehen. Wie oben erörtert, behält der Bildverarbeitungsabschnitt 27 eine Historie der Bewegung des Mittelpunkts der Unterseite des Rahmens jedes Objekts bei. Wenn dieser Mittelpunkt für eine vorher festgelegte Zeit innerhalb einer bestimmten Region verbliebe, wie zum Beispiel in der Region 132, könnte dies ein Herumlungern darstellen und durch den Bildverarbeitungsabschnitt 27 erfasst werden.
Die Web-Seite aus 9 enthält auch einen Ereignis-Auswahlkasten 136, den der Bediener dafür verwenden kann, anzugeben, dass der Bildverarbeitungsabschnitt 27 auf ein bestimmtes Ereignis überprüfen soll, und um anzugeben, welche Aktion durchgeführt werden soll, wenn das spezifizierte Ereignis eintritt. In dieser Hinsicht kann der Bediener eine Maus dafür verwenden, um eines von mehreren im Kasten 136 identifizierten Ereignissen auszuwählen, einschließlich folgender Ereignisse: Eintritt, Austritt, Herumlungern, Deponieren, Entfernen, Bewegen, Bleiben und Lichtausschalten. Der Ereignis-Auswahlkasten 136 ermöglicht es dem Anwender, optional die Überwachung des spezifizierten Ereignisses auf bestimmte Arten von erfassten Objekten zu beschränken, einschließlich einer Person, einer Schachtel, einer Aktentasche, eines Notebooks, eines Computermonitors, jeder Objektart oder nur eines unbekanntes Objekt. Der Ereignis-Auswahlkasten 136 ermöglicht es dem Anwender auch, das Überwachungsereignis auf eine bestimmte Region zu begrenzen, indem deren Beschriftungsbuchstabe identifiziert wird, wie zum Beispiel die Region 132, die durch den Beschriftungsbuchstaben „A" identifiziert wird.
Für bestimmte Ereignisse gestattet es der Ereignis-Auswahlkasten 136 dem Anwender, eine Zeitdauer in Sekunden anzugeben. Wenn der Anwender das System zum Beispiel anweist, auf ein Herumlungern-Ereignis in einer bestimmten Region zu überwachen, kann der Anwender angeben, dass das Herumlungern-Ereignis nur erfasst werden soll, wenn das spezifizierte Objekt in der spezifizierten Region für eine Dauer von mindestens fünf Sekunden verweilt. Der Ereignis-Auswahlkasten 136 gestattet es dem Bediener auch, die Aktion zu bestimmen, die durchzuführen ist, wenn das spezifizierte Ereignis eintritt, einschließlich eines hörbaren Pieptons, der Erstellung eines Log-Eintrags auf dem Festplattenlaufwerk 34, eines Pop-Up-Fensters auf der Anzeige 21 des Arbeitsrechners 13 oder einer künstlich hergestellten Sprachdurchsage, die anzeigt, dass das Ereignis von Interesse eingetreten ist, wie zum Beispiel eine künstlich hergestellte Durchsage des Worts „Herumlungern". Man wird erkennen, dass der Ereignis-Auswahlkasten 136 so modifiziert werden könnte, dass er die Identifizierung von anderen Ereignissen, Objekten, Bedingungen oder Aktionen ermöglicht. Die Aktionen könnten zum Beispiel auch beinhalten, einen Telefonanruf an eine bestimmte Nummer, beispielsweise die Nummer einer Sicherheitsagentur, zu tätigen oder eine E-Mail-Mitteilung an eine bestimmte E-Mail-Adresse zu senden.
Dieser Aspekt der vorliegenden Erfindung bietet eine Reihe von technischen Vorteilen. Ein solcher Vorteil ist es, dass auf Grund der regelmäßigen Speicherung von Referenzbildern, der Speicherung dieser Referenzbilder in verringerter Auflösung, der Speicherung lediglich ausgewählter Bilder von Objekten, die von Interesse sind, und der Speicherung lediglich von Teilen des gesamten Bildes die für die Speicherung von Bildern benötigte Speichermenge im Vergleich zu bekannten Systemen erheblich verringert wird. Ein damit verbundener Vorteil ist es, dass die Menge an gespeicherten Informationen, die ein Bediener in Reaktion auf das Eintreten eines Ereignisses überprüfen müsste, im Vergleich zu bekannten Systemen erheblich verringert wird. Ein weiterer Vorteil ist es, dass die verfügbaren Informationen mit Zeitmarkeninformationen geliefert werden, so dass ein Bediener schnell die Ereignisse von Interesse in einem Zeitrahmen von Interesse identifizieren kann und diese Ereignisse schnell und leicht überprüfen kann.
Noch einen weiteren Vorteil stellt die Speicherung einer Spur dar, die die Bewegung eines erfassten Objekts widerspiegelt, wodurch später ein leicht verständliches sichtbares Bild der Bewegung des Objekts geliefert werden kann, ohne dass zahlreiche Videobilder gespeichert werden, die dem gesamten Zeitraum entsprechen, in dem das erfasste Objekt in einem überwachten Gebiet anwesend war. Ein weiterer Vorteil ist es, dass die Verwendung eines Web-Browsers für den Zugang der vom System protokollierten Informationen es einer Person gestattet, auf die Informationen von so gut wie jedem Ort, an dem ein Computer zur Verfügung steht, zuzugreifen, einschließlich eines WWW-kompatiblen Mobiltelefons.
Ein weiterer Vorteil ergibt sich aus der Tatsache, dass die Auswahl eines zu speichernden Bildes auf Kriterien basiert, die dafür ausgelegt sind, das Bild zu optimieren, zum Beispiel durch eine hohe Wahrscheinlichkeit, dass eine erfasste Person zur Kamera schaut und nahe an der Kamera ist. Ein weiterer Vorteil ist es, dass das offenbarte System eine eigenständige Kameraeinheit sein kann, die WWW-kompatibel ist. Ein weiterer Vorteil ist es, dass das offenbarte System verlässlicher als bestimmte bekannte Technologien ist, wie zum Beispiel bekannte Systeme, die einen Videorekorder (VCR) aufweisen, der mechanischen Fehlern unterliegt und der Köpfe umfasst, die regelmäßig gereinigt werden müssen.
Um ein Verständnis eines zweiten Aspekts der vorliegenden Erfindung zu ermöglichen, wird nun des Weiteren eine spezifische exemplarische Anwendungsmöglichkeit des Systems 10 aus 1 offenbart. Man wird jedoch erkennen, dass es zahlreiche andere Anwendungsmöglichkeiten und Umgebungen gibt, in denen das System 10 aus 1 verwendet werden könnte. In Hinblick auf die exemplarische Anwendungsmöglichkeit stellt 10 eine schematische Draufsicht eines Teils eines Raumes 171 in einem Gebäude dar, einschließlich dreier Wände 172, 173 und 174. Die Wand 172 ist an einer Stelle, die sich nahe der Wand 173 befindet, mit einer Türe 177 versehen, die nach innen in den Raum 171 schwingt, wenn sie geöffnet wird. Der Raum ist mit drei Tischen 181 bis 183 ausgestattet, wobei der Tisch 181 an die Wand 173 angrenzt, der Tisch 182 an die Wand 174 grenzt und der Tisch 183 mit einer Seite an die Wand 174 grenzt. Die Videokamera 12 ist an der Wand 172 angebracht und ist auf die Ecke des Raumes gerichtet, die durch die Schnittstelle der Wände 173 und 174 definiert ist.
11 ist eine schematische Darstellung eines Videobildes, das von der Videokamera 12 in der Umgebung aus 10 erhalten wurde und das somit die Türe 177 und Teile der Wände 173 und 174 zeigt. Das Bild aus 11 zeigt auch die Tische 181 und 182 und einen Teil des Tischs 183. Der Erörterung halber wird angenommen, dass das Bild aus 11 als Referenzbild gespeichert wurde, analog dem Referenzbild, das oben in Zusammenhang mit 2A erörtert wurde.
12 ist eine schematische Darstellung eines Teils des Bildschirms der Anzeige 21 (1). Auf der linken Seite befindet sich ein Bild 184, das in 12 das Referenzbild ist, das in 11 abgebildet ist. Auf der rechten Seite befindet sich eine Karte 185, die ein digitalisiertes Bild der Draufsicht des Raumes 171 aus 10 darstellt. Im offenbarten Ausführungsbeispiel wurde das Bild 185 in den Computer unter Verwendung eines nicht abgebildeten Scanners eingelesen, um eine Blaupause oder eine Zeichnung zu digitalisieren. Der Arbeitsrechner 13 erkennt keine physischen Strukturen innerhalb der Karte 185, wie zum Beispiel die Wände 171 bis 174 oder die Tische 181 bis 183. Stattdessen erkennt der Arbeitsrechner 13 die Karte 185 einfach als zweidimensionales Bild, das durch eine Pixelmatrix definiert wird.
Das Videobild 184 und die Karte 185 sind somit für den Arbeitsrechner 13 nur entsprechende Pixelmatrizen. Um dem Computer eine Grundlage für deren gegenseitige Beziehung zu liefern, wird zwischen dem Bild 184 und dem Bild 185 eine Abbildung auf folgende Art etabliert. Mit Bezug auf 12 verwendet ein Bediener die Maus 19 (1), um eine oder mehrere vierseitige Regionen sowohl auf dem Bild 184 als auch auf der Karte 185 zu definieren. Jede vierseitige Region wird dafür verwendet, eine nach oben zeigende Oberfläche, die eine Person oder ein Objekt tragen kann, wie zum Beispiel den Boden oder die Oberfläche eines Tisches, zu kennzeichnen.
Der Bediener kann zum Beispiel zunächst eine vierseitige Region 186 auf dem Bild 184 aus 12 zeichnen. Die vierseitige Region 186 entspricht so gut wie dem ganzen Boden, der im Bild 184 sichtbar ist. Der Bediener kann die vierseitige Region 186 dadurch zeichnen, dass er mit der Maus auf ausgewählte Punkte auf dem Bild 184 klickt, um die vier Ecken der vierseitigen Region zu definieren. Ein Umriss der vierseitigen Region 186 wird im angezeigten Bild 184 eingeblendet. In 12 ist der Umriss der vierseitigen Region 186 durch eine gestrichelte Linie dargestellt, aber es könnte auch eine durchgezogene Linie verwendet werden, und/oder er könnte in Farbe angezeigt werden, damit er auf dem Grauskalabild 184 leicht sichtbar ist.
Der Bediener ordnet dann der vierseitigen Region 186 eine Beschriftung zu, die in 12 der Buchstabe „A" ist, der in der Mitte der vierseitigen Region 186 abgebildet ist. Alternativ hierzu hätte der Bediener den Namen „BODEN" für die vierseitige Region 186 verwenden können, da sie einen Teil des Bodens darstellt. Dann zeichnet der Bediener so genau wie möglich auf der Karte 185 eine entsprechende vierseitige Region 187, die genau denselben Teil des Bodens darstellt. Obwohl die vierseitigen Regionen 186 und 187 denselben Teil des Bodens darstellen, weisen sie auf Grund der Tatsache, dass das Bild 184 eine perspektivische Ansicht des Raumes und die Karte 185 eine Draufsicht ist, unterschiedliche Größen und Formen auf. Der Bediener versieht die vierseitige Region 187 mit derselben Beschriftung „A", die für die vierseitige Region 186 verwendet wurde, damit der Arbeitsrechner 13 erkennt, dass sich die vierseitigen Regionen 186 und 187 einander entsprechen. Nachdem eine vierseitige Region gezeichnet wurde, gestattet es der Arbeitsrechner 13 dem Bediener, die Form und/oder die Größe der vierseitigen Region anzupassen, beispielsweise indem er die Maus 19 zum Ziehen und Ablegen einer Seite oder einer Ecke der vierseitigen Region verwendet.
Auf ähnliche Weise kann der Bediener zusätzliche Paare vierseitiger Regionen zeichnen. In 12 hat der Bediener zum Beispiel eine vierseitige Region 188 auf dem Bild 184 gezeichnet, die die Oberfläche des Tischs 181 bezeichnet, und er hat eine entsprechende vierseitige Region 189 auf der Karte 185 gezeichnet. Der Bediener hat diese beiden verwandten vierseitigen Regionen mit der Beschriftung „B" versehen. Ferner hat der Bediener die zugehörigen vierseitigen Regionen 191 und 192 gezeichnet, um die Oberfläche des Tischs 182 zu kennzeichnen, und er hat beide mit der Beschriftung „C" versehen. Außerdem hat der Bediener auf dem Bild 184 eine vierseitige Region 193 gezeichnet, die den Teil der Oberfläche des Tischs 183 darstellt, der im Bild 184 sichtbar ist, und er hat eine entsprechende vierseitige Region 194 auf der Karte 185 gezeichnet. Die vierseitigen Regionen 193 und 194 wurden mit der gemeinsamen Beschriftung „D" versehen.
Für jedes vom Bediener gezeichnete Paar sich entsprechender vierseitiger Regionen legt der Arbeitsrechner 13 eine Warp-Transformation an, die eine bekannte mathematische Technik anwendet und die einen ausgewählten Punkt in einer der vierseitigen Regionen des Paars in einen entsprechenden Punkt in der anderen vierseitigen Region des Paars überträgt. Um es dem System zu ermöglichen, diese Warp-Transformation zu bestimmen, muss der Arbeitsrechner 13 wissen, welche Seite einer bestimmten vierseitigen Region im Bild 184 welcher Seite einer zugehörigen vierseitigen Region auf der Karte 185 entspricht. Im offenbarten Ausführungsbeispiel gestattet es der Arbeitsrechner 13 dem Bediener, die Position der Kamera 12 auf der Karte 185 zu identifizieren. Der Arbeitsrechner 13 ordnet dann automatisch die Seite einer vierseitigen Region, die sich im Bild 184 ganz unten befindet, der Seite der entsprechenden vierseitigen Region auf der Karte 185 zu, die sich am nächsten bei der Kamera 12 befindet. Es wäre jedoch alternativ hierzu auch möglich, vom Bediener zu verlangen, dass er zusammengehörige Seiten der vierseitigen Regionen jedes Paares manuell identifiziert, zum Beispiel, indem er die Maus 19 verwendet, um auf eine ausgewählte Seite einer vierseitigen Region zu klicken, und dann mit der Maus auf die entsprechende Seite der anderen vierseitigen Region zu klicken.
Obwohl sich die aktuelle Erörterung auf die Verwendung von vierseitigen Regionen bezieht, wird man erkennen, dass ebenfalls Umrisse von anderen Formen verwendet werden könnten. Ein Umriss könnte zum Beispiel die Form eines anderen beliebigen Vielecks oder eines Kreises aufweisen oder es könnte sich um einen unregelmäßigen Umriss handeln, vorausgesetzt, dass eine geeignete Warp-Transformation bereitgestellt wird, um jeden Punkt in einer Region mit einem Punkt in der entsprechenden Region zu verbinden.
Manchmal kann es der Bediener für notwendig erachten, vierseitige Regionen zu zeichnen, die sich überlappen. In 12 überlappt beispielsweise die vierseitige Region 193, die die Oberseite des Tischs 183 darstellt, einen Teil der vierseitigen Region 186, die den Boden des Raumes kennzeichnet. Für den Fall, dass sich ein bestimmter Punkt im Bild 184 in beiden dieser vierseitigen Regionen befindet, muss der Arbeitsrechner 13 wissen, ob er den Punkt vom Bild 184 auf der Karte 185 abbilden soll, indem er die Warp-Transformation für die vierseitigen Regionen 193 und 194 verwendet, oder die Warp-Transformation für die vierseitigen Regionen 186 und 187. Daher muss der Arbeitsrechner 13 immer, wenn sich zwei vierseitige Regionen im Bild 184 überlappen, wissen, welche der vierseitigen Regionen eine höhere Priorität im Vergleich zur anderen erhalten soll.
Im offenbarten Ausführungsbeispiel nimmt der Arbeitsrechner 13 automatisch an, dass die kleinste vierseitige Region Priorität besitzt. Im Bild 184 aus 12 hätte die vierseitige Region 193 somit Priorität über die vierseitige Region 186. Anders ausgedrückt, wenn ein bestimmter Punkt in die Überlappung der vierseitigen Regionen 193 und 186 fiele, würde der Punkt unter Verwendung der Warp-Transformation für die vierseitigen Regionen 193 und 194, an Stelle der Warp-Transformation für die vierseitigen Regionen 186 und 187, auf die Karte 185 übertragen werden. Dieses Standard-Prioritätsschema funktioniert in der Praxis relativ gut, da eine größere vierseitige Region (wie zum Beispiel die vierseitige Region 186) normalerweise einen Teil des Bodens darstellt, während eine kleinere vierseitige Region (wie zum Beispiel die vierseitige Region 193) normalerweise die Oberfläche eines Tischs oder eines anderen Objekts, das sich auf dem Boden befindet, darstellt. Die Oberfläche des Tischs ist normalerweise für die Videokamera sichtbar, aber sie blockiert einen Teil des Bodens von der Sicht der Kamera aus gesehen. Folglich erhält man, wenn zwei vierseitige Regionen sich überlappen, normalerweise ein Ergebnis, das dem entspricht, was für die Kamera sichtbar ist und was nicht, wenn man das sich überlappende Gebiet der kleineren vierseitigen Region und nicht der größeren vierseitigen Region zuordnet. Es kann jedoch Umstände geben, unter denen es der Bediener eventuell wünscht, eine bestimmte Region, in der sich vierseitige Regionen überlappen, mit einer unterschiedlichen Priorität zu versehen, und der Arbeitsrechner 13 gestattet es dem Bediener, Priorisierungsinformationen manuell einzugeben, die über die Standardpriorisierung Vorrang haben.
Nachdem der Bediener mindestens ein Paar sich entsprechender vierseitiger Regionen im Bild 184 und auf der Karte 185 gezeichnet und die Priorität für alle sich überlappenden Regionen definiert hat, kann das System 10 in eine normale Überwachungsbetriebsart geschaltet werden. Aufeinander folgende Bilder von der Videokamera 12 werden hinsichtlich des Referenzbilds aus 11 auf gleiche Weise verarbeitet, wie oben in Zusammenhang mit den 2 und 3 beschrieben. In dieser Hinsicht ist 13 eine schematische Darstellung ähnlich wie 12, außer, dass das angezeigte Videobild ein aktuelles Videobild 201 an Stelle des gespeicherten Referenzbildes aus 11 ist.
In 13 spiegelt das aktuelle Videobild 201 wider, dass eine Person 206 den Raum betreten hat, während sie ein Objekt 207 trug, das Objekt 207 auf die Oberfläche des Tischs 182 gelegt hat und sich dann vom Objekt 207 entfernt hat. Das Objekt 207 kann beispielsweise eine Aktentasche oder eine Kiste sein. Der Rahmen für die Person 206 ist unter 211 abgebildet und der Rahmen für das Objekt 207 ist unter 212 abgebildet. Die Mittelpunkte der Unterseite der Rahmen 211 und 212 sind an den Punkten 213 bzw. 214 abgebildet.
Der Mittelpunkt 213 befindet sich in der vierseitigen Region 186 und die Warp-Transformation für die vierseitigen Regionen 186 und 187 wird daher dafür verwendet, den Punkt 213 aus der vierseitigen Region 186 als einen entsprechenden Punkt 218 in der vierseitigen Region 187 der Karte 185 abzubilden. Auf der Karte 185 wird am Punkt 218 ein Symbol angezeigt, beispielsweise ein Punkt, um auf der Karte 185 eine sichtbare Anzeige der Stelle zu liefern, an der die Person 206 im Raum steht. Der Mittelpunkt 214 befindet sich in der vierseitigen Region 191 und daher wird die Warp-Transformation, die zu den vierseitigen Regionen 191 und 192 gehört, verwendet, um den Punkt 214 als einen entsprechenden Punkt 219 auf der Karte 185 abzubilden. Auf der Karte 185 wird am Punkt 219 ein Punkt angezeigt, um anzuzeigen, wo sich das Objekt 207 auf der Karte 185 befindet. Wenn sich die Person 206 im Raum bewegt, bewegt sich der Punkt 218, der die Person darstellt, auf der Karte 185, um eine genaue Anzeige darüber zu liefern, wo sich die Person momentan im Raum befindet.
Wenn sich die Person 206 zu einer Stelle begibt, an der der Punkt 213 sich außerhalb aller vierseitigen Regionen 186, 188, 191 und 193 im Bild 201 aus 13 befindet, dann wird der Punkt 213 so lange nicht auf der Karte 185 abgebildet, wie sich der Punkt 213 außerhalb dieser vierseitigen Regionen auf dem Bild 201 befindet. Folglich wird der Punkt 218 so lange nicht auf der Karte 85 angezeigt, wie sich der Punkt 213 außerhalb dieser vierseitigen Regionen auf dem Bild 201 befindet.
Wenden wir uns nun wieder 12 zu, in der es der Arbeitsrechner 13 dem Bediener auch gestattet, eine oder mehrere vierseitige Regionen zu definieren, von denen eine bei 223 auf der Karte 185 abgebildet ist. Die vierseitige Region 223 erscheint nur auf der Karte 185 und hat keine entsprechende vierseitige Region im Bild 184. Der Bediener versieht die vierseitige Region 223 mit einer eindeutigen Beschriftung, zum Beispiel mit der Beschriftung „Z". Wenden wir uns nun wieder 13 zu, in der die vierseitige Region 223 dafür verwendet werden kann, auf bestimmte Ereignisse zu überprüfen. Wenn der Arbeitsrechner 13 zum Beispiel feststellt, dass sich der Punkt 218 zu einer Stelle auf der Karte bewegt hat, die sich in der vierseitigen Region 223 befindet, könnte der Arbeitsrechner 13 eine spezielle Aktion durchführen, wie zum Beispiel die Erzeugung eines hörbaren Alarms. In einer Abwandlung dieses Beispiels würde der Arbeitsrechner 13 vielleicht nicht unmittelbar, nachdem der Punkt 218 in die vierseitige Region 223 eingetreten ist, einen hörbaren Alarm erzeugen, sondern erst dann, wenn der Punkt 218 für eine bestimmte Zeitdauer in der vierseitigen Region 223 verweilt, was als „Herumlungern" bezeichnet werden kann.
Es kann ein Ereignis-Auswahlkasten 136, wie vorher in 9 veranschaulicht, auf der Anzeige 21 der 1 dargestellt und in Verbindung mit dem Teil des Anzeigebildschirms, der in 13 abgebildet ist, verwendet werden. Ein Bediener kann den Ereignis-Auswahlkasten 136 dazu verwenden, festzulegen, dass der Arbeitsrechner 13 auf ein bestimmtes Ereignis überprüfen soll, und anzugeben, welche Aktion durchgeführt werden soll, wenn das spezifizierte Ereignis eintritt. Dieses Vorgehen wurde vorher oben in Zusammenhang mit 9 beschrieben.
Wenden wir uns nun 12 zu, in der es der Arbeitsrechner 13 dem Bediener gestattet, auch eine oder mehrere vierseitige Regionen zu definieren, von denen eine unter 241 auf dem Referenzbild 184 abgebildet ist. Die vierseitige Region 241 erscheint nur auf dem Referenzbild 184 und hat keine entsprechende vierseitige Region auf der Karte 185. Der Bediener versieht die vierseitige Region 241 mit einer eindeutigen Beschriftung, zum Beispiel mit der Beschriftung „Y". Diese Art vierseitiger Regionen wird dafür verwendet, die Abbildung von Punkten vom Bild 184 auf der Karte 185 einzuschränken. Genauer gesagt, wenn eine erfasste veränderte Region vollständig in die vierseitige Region fällt, wird die veränderte Region für alle Zwecke vollständig ignoriert, und somit wird kein Punkt vom Bild 184 auf der Karte 185 als Ergebnis dieser erfassten veränderten Region abgebildet. Auf der anderen Seite wird die veränderte Region auf normale Art wie vorher beschrieben behandelt, wenn nur ein Teil einer erfassten veränderten Region in die vierseitige Region 241 fällt. Diese Fähigkeit wird bereitgestellt, um bestimmte Arten von Aktivitäten in einem überwachten Gebiet absichtlich zu ignorieren.
Genauer gesagt, als ein Beispiel, wenn sich ein Computerdrucker im überwachten Gebiet befindet, würde das System 10 jedes Mal, wenn der Drucker ein Blatt Papier auswirft, dieses Ereignis erfassen und protokollieren. Auf ähnliche Weise würde, wenn sich ein unbeaufsichtigter Computermonitor im überwachten Gebiet befände, der einen Bildschirmschoner anzeigt, das System 10 normalerweise Änderungen der Anzeige, die vom Bildschirmschonerprogramm hervorgerufen würden, erfassen und protokollieren. Durch Platzierung der vierseitigen Region 241 um den Drucker oder um den Computermonitor herum fänden alle Aktivitäten, die mit dem Drucker oder dem Monitor zusammenhängen, vollständig innerhalb der vierseitigen Region 241 statt und würden somit ignoriert werden. Folglich würden das Auswerfen von Papier des Druckers oder Änderungen der Anzeige des Monitors ignoriert werden, so dass das System 10 nicht zahlreiche Ereignisse protokollieren würde, die von wenig oder keinem Interesse sind. In 12 befindet sich die vierseitige Region 241 innerhalb der vierseitigen Region 186. Wenn sich eine erfasste veränderte Region vollständig in der vierseitigen Region 241 befindet, wird sie vollständig ignoriert, obwohl sie sich auch in der vierseitigen Region 186 befindet.
Dieser Aspekt der vorliegenden Erfindung bietet eine Reihe von technischen Vorteilen. Ein solcher Vorteil liegt darin, dass ein Systembediener die Abbildung zwischen einem Videobild und einer Standortkarte schnell und genau definieren kann. Vorausgesetzt, der Bediener ist ziemlich sorgfältig bei der Zeichnung genauer vierseitiger Regionen, dann können Abbildungsfehler im Wesentlichen ausgeschlossen werden. Ein im Videobild erfasstes Objekt wird zum Beispiel nicht fälschlicherweise auf der falschen Seite einer Wand platziert sein. Ein weiterer Vorteil besteht darin, dass dies ohne die Notwendigkeit erreicht werden kann, Kameraparameter definieren zu müssen, einschließlich interner Parameter, wie zum Beispiel Brennweite und Millimeter pro Pixel, und externer Parameter, wie zum Beispiel den Standort und die Ausrichtung der Kamera. Dies alles wird automatisch berücksichtigt.
14 ist eine schematische Darstellung einer Überwachungsvorrichtung 310, die einen anderen Aspekt der vorliegenden Erfindung verkörpert. Die Überwachungsvorrichtung 310 wird dafür verwendet, Aktivitäten in einer oder mehreren Regionen oder Gebieten von Interesse zu überwachen. Die Überwachungsvorrichtung 310 kann zum Beispiel in einem Wohnhaus verwendet werden, um Aktivitäten in einem oder mehreren Räumen zu überwachen, im Hof, an der Vordertüre und/oder in der Einfahrt. Sie könnte auch für die Überwachung eines oder mehrerer Gebiete in einer geschäftlichen oder industriellen Einrichtung verwendet werden.
Die Überwachungsvorrichtung 310 umfasst zwei Bilddetektoren 312 und 313, die im offenbarten Ausführungsbeispiel Videokameras bekannter Art sind. Die Videokameras 312 und 313 umfassen je einen nicht abgebildeten Ladungskoppelelement- (CCD-) Sensor und eine nicht abgebildete Zoomobjektiv-Baugruppe für die Anpassung des Sehbereichs des Bildes, das auf dem CCD-Sensor fokussiert ist. Die Videokameras 312 und 313 können unterschiedliche Ansichten desselben überwachten Gebiets zeigen oder jede Kamera kann eine Ansicht eines vollständig unterschiedlichen überwachten Gebiets zeigen.
Die Videokameras 312 und 313 umfassen je ein entsprechendes Steuerwerk 316 bzw. 317. Die Steuerwerke 316 und 317 sind jeweils in der Lage, automatisch die Zoomeinstellung der Zoomobjektiv-Baugruppe in der zugehörigen Videokamera 312 bzw. 313 zu steuern. Ferner umfassen die Steuerwerke 316 und 317 jeweils einen physischen Halter für die zugehörige Videokamera, der eine automatisierte Anpassung der physischen Ausrichtung der zugehörigen Videokamera 312 bzw. 313 ausführen kann. Anders ausgedrückt, können die Steuerwerke 316 und 317 in Hinblick auf ein erfasstes Bild des überwachten Gebiets jeweils die Ausrichtung der zugehörigen Kamera 312 bzw. 313 nach oben, nach unten, nach links oder nach rechts anpassen, so dass das erfasste Bild innerhalb des überwachten Gebiets nach oben, nach unten, nach links oder nach rechts angepasst wird.
Die Überwachungsvorrichtung 310 umfasst auch einen Sensor 319, der ein Ereignis, das von Interesse ist, in einem Gebiet, das von mindestens einer der Kameras 312 und 313 überwacht wird, erfassen kann. Im offenbarten Ausführungsbeispiel ähnelt der Sensor 319 denjenigen, die in Systemen verwendet werden, die automatisch Türen für Kunden in Einzelhandelseinrichtungen öffnen. Konkret handelt es sich bei dem Sensor 319 um einen Infrarotsensor, der in der Lage ist, eine Wärmequelle innerhalb des Gebiets, das es überwacht, zu erfassen, einschließlich der Anwesenheit eines Menschen oder eines Tieres.
Die Überwachungsvorrichtung 310 umfasst ferner ein System 322, das einen Computer 324 enthält. Bei dem Computer 324 kann es sich um einen Personal Computer handeln, der einen Prozessor enthält und der ein Speicherelement wie zum Beispiel ein Festplattenlaufwerk enthält.
Eine Videoverbindung 326 wird zwischen der Videokamera 312 und dem Computer 324 bereitgestellt, um Videobilder von der Videokamera 312 an den Computer 324 zu liefern. Eine ähnliche Videoverbindung 328 wird von der Videokamera 313 zum Computer 324 bereitgestellt. Steuerleitungen 327 werden vom Computer 324 zum Steuerwerk 316 der Videokamera 312 bereitgestellt, um dem Steuerwerk 316 Informationen zu liefern, die bestimmen, wie das Steuerwerk 316 die Videokamera 312 positioniert und wie das Steuerwerk 316 den Zoomfaktor der Zoomobjektiv-Baugruppe in der Kamera 312 einstellt. Ein ähnlicher Satz Steuerleitungen 329 wird vom Computer 324 an das Steuerwerk 317 der Videokamera 313 bereitgestellt. Der Infrarotsensor 319 weist einen Ausgang 331 auf, der mit dem Computer 324 gekoppelt ist.
Das System 322 umfasst ferner eine zellulare Basisstation 336 einer bekannten Art, die für die Datenübertragung mit (drahtlosen) Mobiltelefonen verwendet wird. Der Computer 324 ist operativ an die Basisstation 336 durch ein Netzwerk 338 gekoppelt, das das Internet umfasst und das ein oder mehrere andere Netzwerke, wie zum Beispiel ein lokales Netzwerk, ein Weitbereichsnetz usw. umfassen kann. Das Netzwerk 338 ist an eine nicht abgebildete Netzwerkschnittstellenkarte gekoppelt, die im Computer 324 bereitgestellt wird. Da das Netzwerk 338 das Internet umfasst, ist es in der Lage, Informationen im als World Wide Web (WWW) bekannten Internet-Format zu übertragen, in dem Dokumente, die Web-Seiten genannt werden, zwischen Computern in einem standardisierten Format, das als Hypertext Mark-Up Language (HTML) Format bekannt ist, übertragen werden.
Das System 322 umfasst auch eine Telefonleitung oder das System 341, das an einer Seite an ein nicht abgebildetes Modem im Computer 324 gekoppelt ist, und an der anderen Seite an die zellulare Basisstation 336.
Die Überwachungsvorrichtung 310 umfasst ferner eine tragbare Datenübertragungseinheit 346, die ein (drahtloses) Mobiltelefon ist und die auch einige zusätzliche Fähigkeiten aufweist, wie unten erörtert wird. Die tragbare Einheit 346 im offenbarten Ausführungsbeispiel kann eine Einheit sein, die unter dem Handelsnamen NOKIA 9000 von NOKIA aus Irving, Texas, erhältlich ist. Die tragbare Datenübertragungseinheit 346 hat eine Antenne 348, die eine drahtlose Datenübertragung mit der Basisstation 336 durch eine Hochfrequenz-(HF-) Mobiltelefonverbindung 349 ermöglicht.
Die tragbare Einheit 346 weist eine LCD-Anzeige 351 auf, die in der Lage ist, zweidimensionale Videobilder in einer niedrigen Auflösung anzuzeigen. Ferner weist die tragbare Einheit 346 eine Mehrzahl an Knöpfen oder Tasten auf, von denen eine unter 352 angezeigt ist. Ein Bediener kann diese Tasten verwenden, um Informationen in die tragbare Einheit 346 einzugeben. Die Tasten umfassen eine alphanumerische Tastatur, die ein „QWERTY"-Format hat, das dem von Personal Computern ähnelt, und sie umfassen mehrere Funktionstasten.
Die Überwachungsvorrichtung 310 ist in der Lage, ein von einer der Videokameras 312 oder 313 erfasstes Videobild aufzunehmen, eine Bildverarbeitung an den erfassten Bildern im Computer 324 durchzuführen, das sich daraus ergebende bearbeitete Bild an die tragbare Einheit 346 durch das Netzwerk 338, die Basisstation 336 und die drahtlose Verbindung 349 zu übertragen, und das bearbeitete Bild auf der Anzeige 351 der tragbaren Einheit 346 darzustellen. Im offenbarten Ausführungsbeispiel umfasst die vom Computer 324 durchgeführte Bildverarbeitung Schritte, die unten in Bezug auf 15 erläutert werden.
In diesem Hinblick ist jede der Videokameras 312 und 313 in der Lage, aufeinander folgende Bilder in einer Geschwindigkeit und Auflösung zu erzeugen, die mehr Informationen darstellen, als durch die drahtlose Verbindung 349 übertragen werden können. Selbst eine kostengünstige Videokamera kann beispielsweise 30 Frames oder Bilder pro Sekunde erzeugen, die jeweils eine Auflösung von 320 mal 240 Grauskalapixel haben. Für die Übertragung der Daten, die all diese Pixel darstellen, wäre ein Durchsatz von circa 18 Millionen Bit pro Sekunde erforderlich. Bestehende drahtlose Mobilfunkverbindungen, wie die bei 349 in 14, können einen nominalen Durchsatz von circa 9600 Bit pro Sekunde aufrecht erhalten, oder anders ausgedrückt, circa 1/2000 der gesamten Videoinformationen, die von der Videokamera erzeugt werden.
Eine weitere Überlegung ist die, dass bestehende tragbare Einheiten, wie die bei 346 in 14 gezeigte, Monochrom-Anzeigen mit niedriger Auflösung haben. Das heißt, dass die Auflösung einer Anzeige, wie die bei 351 gezeigte für ein Videobild auf circa 160 mal 120 Pixel begrenzt ist, bei dem ein Pixel entweder an oder aus ist oder, anders ausgedrückt, eine von zwei unterschiedlichen Farben, wie zum Beispiel schwarz oder weiß, darstellt.
Aus diesen Gründen werden die Bilder von den Videokameras 312 und 313 in 14 vom Computer 324 einer Bildverarbeitung unterzogen, die schematisch in 15 abgebildet ist. 15 ist ein Flussdiagramm, das die aufeinander folgenden Bildverarbeitungsschritte 161 bis 163 zeigt. Der erste Schritt 161 stellt ein zeitliches Abtasten dar, das beinhaltet, dass eine Teilmenge der von einer bestimmten Videokamera erzeugten Bilder ausgewählt wird. Von den circa 30 Frames oder Bildern, die eine Videokamera pro Sekunde erzeugt, werden zum Beispiel zwei dieser Frames oder Bilder für die Bildverarbeitung ausgewählt und die anderen können verworfen werden.
Dann wird bei Block 362 eine räumliche Abtastung durchgeführt. Anders ausgedrückt, wird ein Subsampling durchgeführt, um die Auflösung jedes der bei 361 ausgewählten Bilder zu verringern. Jeder Frame oder jedes Bild kann beispielsweise auf circa 80 mal 60 Pixel verringert werden.
Dann wird bei Block 363 ein Dithering-Verfahren ausgeführt, um die Daten, die jedem Pixel entsprechen auf ein einziges Bit zu verringern. Das heißt, dass das mit jedem Pixel verbundene Bit anzeigt, ob das Pixel an oder aus ist. Anders ausgedrückt, hat jedes der Pixel eine von zwei verschiedenen Farben, wie zum Beispiel schwarz und weiß. Das Dithering-Verfahren setzt unter Anwendung einer bekannten Technik den Status jedes Pixels des bearbeiteten Bildes auf Grundlage der Zustände von mehreren Pixeln des räumlich abgetasteten Bildes fest. Im offenbarten Ausführungsbeispiel verringern das bei den Blöcken 361 bis 363 aus 15 durchgeführte Abtasten und Dithering die Videoausgabe auf 9600 Bit pro Sekunde.
Im offenbarten Ausführungsbeispiel nimmt der Computer 324 die Bilder, die gemäß den oben in Zusammenhang mit 15 erörterten Techniken bearbeitet wurden, und fügt diese bearbeiteten Bilder sukzessive in ein Dokument oder eine Web-Seite ein, die im HTML-Format ist und somit über das Internet zugänglich ist. In diesem Hinblick umfasst die tragbare Einheit 346 ein vom Hersteller installiertes Browser-Programm, das in der Lage ist, auf eine HTML-Seite oder ein Dokument, das vom Computer 324 über das Netzwerk 338 empfangen wurde, zuzugreifen, dieses herunterzuladen und auf der Anzeige 351 anzuzeigen.
16 zeigt ein Beispiel dessen, wie die Anzeige 351 der tragbaren Einheit 346 eine vom Computer 324 erzeugte HTML-Seite darstellen könnte. Auf der linken Seite der Anzeige 351 wird ein Bild 371 dargestellt, das gemäß den Schritten 361 bis 363 aus 15 abgetastet und einem Dithering-Verfahren unterzogen wurde. Wie oben erörtert, handelt es sich hierbei um ein monochromes (zweifarbiges) Bild mit einer niedrigen Auflösung von 60 mal 90 Pixel. Trotzdem reicht es aus, um die Anwesenheit einer Person, im Sehbereich visuell festzustellen, beispielsweise der unter 372 im Bild 371 angezeigten Person.
Rechts des Bildes 371 enthält die HTML-Seite acht Icons, die mit den Referenznummern 381 bis 388 gekennzeichnet sind. Rechts von jedem Icon befindet sich ein Ausdruck in Klammern in der Form von „(FX)", wobei X für eine ganze Zahl steht. Rechts von jedem Ausdruck in Klammern befindet sich eine Beschriftung, die die Funktion des zugehörigen Icons identifiziert. Jeder Ausdruck in Klammern identifiziert eine Funktionstaste auf der tragbaren Einheit 346, die die Ausführung der zugehörigen Funktion veranlasst. Die Icons 387 und 388 beziehen sich auf die Fähigkeit des Bedieners, eine der beiden Videokameras 312 und 313 auszuwählen. Wenn der Bediener die dem Icon 387 zugeordnete Funktionstaste F7 drückt, führt eine zugehörige HTML-Verknüpfung mit dem WWW-Serverprogramm im Computer 324 dazu, dass der Computer 324 die erste Videokamera 312 als ausgewählte Videokamera bestimmt. Der Computer 324 ignoriert dann die Ausgabe der zweiten Videokamera 313, unterzieht nur die Ausgabe der Videokamera 312 der oben in Zusammenhang mit 15 beschriebenen Bildverarbeitung und leitet nur die bearbeiteten Bilder, die von der ausgewählten Videokamera 312 erhalten wurden, an die tragbare Einheit 346 weiter. Andererseits wird die zweite Videokamera 313 als ausgewählte Kamera bestimmt, wenn der Bediener die dem Icon 388 zugeordnete Funktionstaste F8 drückt, die Videobilder von der Kamera 313 werden der oben in Zusammenhang mit 15 beschriebenen Bildverarbeitung unterzogen und nur die bearbeiteten Bilder von der Kamera 313 werden an die tragbare Einheit 346 weitergeleitet.
Das Icon 381 ist eine nach oben zeigende Pfeilspitze. Wenn der Bediener die dem Icon 381 zugeordnete Funktionstaste F1 drückt, führt eine zugehörige HTML-Verknüpfung mit dem WWW-Serverprogramm im Computer 324 dazu, dass der Computer 324 entweder bei 327 oder bei 329 Steuersignale an das Steuerwerk 316 oder 317 in der aktuell ausgewählten Videokamera 312 oder 313 sendet. Diese Steuersignale führen dazu, dass das Steuerwerk 316 oder 317 der ausgewählten Kamera die Ausrichtung der Kamera schräg verstellt, so dass sich das mit dieser Kamera verbundene Bild in Hinblick auf dessen Ansicht des überwachten Gebietes nach oben verschiebt. Auf ähnliche Weise wird die ausgewählte Kamera 312 oder 313 entsprechend nach unten, nach rechts oder nach links gerichtet, wenn der Bediener eine der entsprechenden Funktionstasten F2, F3 oder F4 drückt, die mit den Icons 382 bis 384 entsprechend verknüpft sind.
Wenn der Bediener die dem Icon 385 zugeordnete Funktionstaste F5 drückt, führt eine zugehörige HTML-Verknüpfung dazu, dass der Computer 324 bei 327 oder 329 Steuersignale an das Steuerwerk 316 oder 317 der ausgewählten Videokamera sendet. Diese Steuersignale führen dazu, dass die Zoomobjektiv-Baugruppe in der ausgewählten Videokamera 312 oder 313 ihren Vergrößerungsfaktor in einer Weise vergrößert, die allgemein als Hineinzoomfunktion bekannt ist. Wenn der Bediener alternativ hierzu die dem Icon 386 zugeordnete Funktionstaste F6 drückt, führt deren zugehörige HTML-Verknüpfung dazu, dass die Zoomobjektiv-Baugruppe in der ausgewählten Videokamera ihren Vergrößerungsfaktor in einer Weise verkleinert, die allgemein als Hinauszoomfunktion bekannt ist.
Wenn die tragbare Einheit 446 ein mausartiges Zeigegerät, wie zum Beispiel einen kleinen Trackball, aufweist, kann der Bediener das Zeigegerät dafür verwenden, ein beliebiges der Icons 381 bis 388 auszuwählen und „anzuklicken", um die zugehörige Funktion auszuführen. Auf ähnliche Weise kann der Bediener direkt auf eins der Icons 381 bis 388 klicken, wenn er auf diese HTML-Seite von einem anderen entfernt aufgestellten Computer zugreifen sollte und dieser Computer eine Maus aufweist.
Wie oben erörtert, ist der Infrarotsensor 319 in der Lage, die Anwesenheit einer Wärmequelle, wie zum Beispiel eines Menschen oder eines Tieres, in seinem Sehbereich zu erfassen. Wenn der Sensor 319 ein Signal bei 331 ausgibt, das anzeigt, dass er die Anwesenheit einer solchen Wärmequelle erfasst hat, reagiert der Computer 324 dadurch, dass er einen Telefonanruf mit Hilfe seines nicht abgebildeten Modems an das Telefon in der tragbaren Einheit 346 ausführt, nämlich durch die Telefonleitung 341, die Basisstation 336 und die drahtlose Verbindung 349. Hierdurch wird die Person oder der Bediener, der die tragbare Einheit 346 besitzt, darüber informiert, dass sich etwas im entfernten Gebiet, das vom System 310 aus 14 überwacht wird, abspielt. Der Bediener kann dann den in der Einheit 346 zur Verfügung stehenden Browser dafür verwenden, auf die vom Computer 324 erzeugte HTML-Seite zuzugreifen und diese herunterzuladen, um eine Bildschirmanzeige wie die in 16 abgebildete zu erhalten, so dass der Bediener das Bild 371 betrachten und herausfinden kann, was sich im überwachten Gebiet abspielt.
Alternativ hierzu wäre es möglich, den Sensor 319 wegzulassen, und den Computer 324 das Eintreten eines Ereignisses, das von Interesse ist, erfassen zu lassen, indem die von einer der Videokameras 312 und 313 empfangenen, unaufbereiteten Bilder verarbeitet werden. 17A ist beispielsweise eine schematische Darstellung eines Bildes eines überwachten Gebietes, das von der Videokamera 312 erzeugt wurde. In diesem Fall handelt es sich bei dem überwachten Gebiet um den Eckbereich eines Raumes. 17B ist ein nachfolgendes Bild von derselben Kamera, das aufgenommen wurde, nachdem eine Person 396 in die überwachte Ecke des Raumes gegangen war.
Das aktuelle Bild in 17B kann mit dem vorherigen Referenzbild der 17A verglichen werden, um festzustellen, ob das aktuelle Bild in irgendeiner merklichen Weise vom Referenzbild abweicht. Dieser Vergleich kann zum Beispiel auf Pixel-Basis ausgeführt werden, indem zunächst der absolute Wert der Differenz zwischen den Grauskala-Farbwerten jedes Pixels festgestellt und das Ergebnis dann mit einem Schwellwert verglichen wird. Wenn der absolute Wert der Differenz eines bestimmten Pixels niedriger als der Schwellwert ist, dann wird das Pixel ausgeschaltet. Andererseits wird das Pixel angeschaltet, wenn der absolute Wert der Differenz über dem Schwellwert liegt.
Das Ergebnis ist ein monochromes (zweifarbiges) Bild, wie das in 17C abgebildete. In 17C gibt es eine Pixelgruppe bei 397, die der Person 396 entspricht und die angeschaltet wurde, um anzuzeigen, dass sich etwas im Vergleich zum Referenzbild der 17A geändert hat. Diese Bedingung kann dafür verwendet werden, einen Telefonanruf vom Computer 324 an die tragbare Einheit 346 auszulösen. Es sollte offensichtlich sein, dass, während der Infrarotsensor 319 Wärme erfasst, der in Zusammenhang mit 17 beschriebene alternative Ansatz Bewegungen oder eine Veränderung im Videobild erfasst, und nicht die Anwesenheit oder Abwesenheit von Wärme.
Im offenbarten Ausführungsbeispiel umfasst die in Zusammenhang mit 15 beschriebene Bildverarbeitung nicht die Anwendung von Videokomprimierungstechniken. Man wird jedoch erkennen, dass der Computer 324 aus 14 mit Hardware und/oder Software ausgestattet werden könnte, die in der Lage ist, eine bekannte Videokomprimierungstechnik auszuführen, und dass die tragbare Einheit 346 mit der Fähigkeit ausgestattet werden könnte, die komprimierten Videoinformationen zu dekodieren, um diese anzuzeigen. Die Videokomprimierung könnte beispielsweise gemäß dem als MPEG-4 bekannten Standard ausgeführt werden. Für den Fall, dass eine Videokomprimierung auf diese Art bereitgestellt würde, würde die Menge an Videoinformationen erhöht werden, die vom Computer 324 zur tragbaren Einheit 346 in Echtzeit übertragen werden könnte. Folglich könnte die in Zusammenhang mit 15 beschriebene Bildverarbeitung so angepasst werden, dass die Anzahl an bearbeiteter und pro Sekunde übertragener Bilder und/oder die Auflösung der bearbeiteten Bilder erhöht würden.
Dieser dritte Aspekt der vorliegenden Erfindung bietet eine Reihe von technischen Vorteilen. Ein solcher technischer Vorteil besteht darin, dass die drahtlose Verbindung zu einer tragbaren Einheit es ermöglicht, dass das überwachte Gebiet von so gut wie jedem entfernten Standort aus und zu jeder passenden Zeit betrachtet werden kann. Außerdem kann die Kameraposition und/oder der -betrieb von diesem entfernten Standort aus angepasst werden. Ein weiterer Vorteil liegt darin, dass der Eintritt eines Ereignisses von Interesse im überwachten Gebiet erfasst werden und eine Anzeige über die Erfassung dieses Ereignisses automatisch an die tragbare Einheit gesendet werden kann. Die Person, die die tragbare Einheit besitzt, kann dann auf Bilder von einer Kamera im überwachten Bereich zugreifen, um herauszufinden, ob es tatsächlich ein Problem gibt, das seine Aufmerksamkeit erfordert. Wenn es kein Problem gibt, könnte die Person einen Telefonanruf ausführen oder andernfalls die tragbare Einheit dafür verwenden, die automatische Übermittlung einer Mitteilung zur Polizei, zur Feuerwehr, zu einer Sicherheitsagentur o.ä. zu unterbinden.
Noch ein weiterer Vorteil ist es, dass die Informationen von den Videokameras in einem Dokument in HTML-Format geliefert werden, auf das leicht von der tragbaren Einheit oder von jedem geeigneten Computer, der einen WWW-kompatiblen Browser umfasst, zugegriffen werden kann. Noch ein weiterer Vorteil ergibt sich aus der Verwendung von Bildverarbeitungstechniken, um die Menge an Videoinformationen an einen Pegel anzupassen, der kompatibel mit der verfügbaren Bandbreite einer drahtlosen Verbindung ist und der kompatibel mit der verfügbaren Auflösung der tragbaren Einheit ist, während an die tragbare Einheit immer noch ein Bild geliefert wird, dessen Auflösung ausreicht, um die Erfassung der Anwesenheit einer Person oder eines Objekts im überwachten Gebiet zu gestatten.
Obwohl ein Ausführungsbeispiel ausführlich veranschaulicht und beschrieben wurde, sollte es verstanden werden, dass verschiedene Änderungen, Ersetzungen und Abänderungen daran vorgenommen werden können, ohne vom Umfang der vorliegenden Erfindung abzuweichen. Obwohl das offenbarte Ausführungsbeispiel zum Beispiel zwei separate Videokameras aufweist, wird man erkennen, dass auch nur eine Kamera bereitgestellt werden könnte oder dass mehr als zwei Kameras bereitgestellt werden könnten. Als weiteres Beispiel verwendet das offenbarte Ausführungsbeispiel Grauskala-Videokameras, aber man wird erkennen, dass auch Farb-Videokameras verwendet werden könnten. Ferner wird man erkennen, dass es, obwohl das offenbarte Ausführungsbeispiel Videokameras als Bilddetektoren verwendet, Anwendungsmöglichkeiten gibt, bei denen eine andere Art Bilddetektor angebracht wäre, zum Beispiel ein zweidimensionaler Staring Array Infrarot-Detektor.
Als noch ein weiteres Beispiel handelt es sich bei dem im offenbarten Ausführungsbeispiel bereitgestellten Ergänzungssensor um einen Infrarotsensor, aber es könnte sich auch um eine andere Art Sensor, beispielsweise eine Photozelle, ein Mikrophon o.ä. handeln. Ebenso wird man erkennen, dass, obwohl das offenbarte Ausführungsbeispiel auf ein Ausgangssignal vom Infrarotsensor dadurch reagiert, dass ein Telefonanruf an das Telefon in der tragbaren Einheit ausgeführt wird, diese Informationen an die tragbare Einheit auch auf alternative Arten übertragen werden könnten, zum Beispiel durch die Sendung einer Funkrufmeldung an einen Funkrufschaltkreis in der tragbaren Einheit. Andere Änderungen, Ersetzungen und Abänderungen sind möglich, ohne vom Umfang der vorliegenden Erfindung abzuweichen, der durch die folgenden Ansprüche definiert wird.
Obwohl ein Ausführungsbeispiel ausführlich veranschaulicht und beschrieben wurde, sollte es verstanden werden, dass verschiedene Änderungen, Ersetzungen und Abänderungen daran vorgenommen werden können, ohne vom Umfang der vorliegenden Erfindung abzuweichen. Obwohl das offenbarte Ausführungsbeispiel zum Beispiel Trapezoide verwendet, um die Regionen, die von Interesse sind, auf dem angezeigten Bild und/oder der Karte zu definieren, wird man erkennen, dass andere Formen alternativ hierzu für die Definition von Regionen verwendet werden könnten. Ebenso verwendet das offenbarte Ausführungsbeispiel eine Videokamera, die einen Detektor umfasst, der auf visuelles Licht reagiert, aber man wird erkennen, dass alternativ hierzu auch andere Arten von Detektoren verwendet werden könnten, wie zum Beispiel ein Staring Array Infrarot-Detektor. Ferner wird in der vorangegangenen Offenbarung eine exemplarische Anwendungsmöglichkeit für das offenbarte Ausführungsbeispiel erörtert, aber man wird erkennen, dass es zahlreiche andere Anwendungsmöglichkeiten und Umgebungen gibt, in denen das offenbarte System auch angewendet werden könnte. Andere Änderungen, Ersetzungen und Abänderungen sind möglich, ohne vom Umfang der vorliegenden Erfindung abzuweichen, der durch die folgenden Ansprüche definiert wird.
Gemäß der vorliegenden Erfindung können Videoinformationen, die vom Bilddetektor 12 stammen, auf folgende Weise komprimiert werden, um komprimierte Bildinformationen zu erhalten. Dieses Verfahren könnte im Bildverarbeitungsabschnitt 27 oder im Arbeitsrechner 13 stattfinden, je nach den jeweiligen Kapazitäten dieser Computer. Für dieses Beispiel wird davon ausgegangen, dass diese Verarbeitung sowie eine solche Verarbeitung, wie in Hinblick auf 2 beschrieben, im Bildverarbeitungsabschnitt 27 stattfinden. Zunächst wählt der Bildverarbeitungsabschnitt 27 ein Videobild mit hoher Auflösung, das vom Bilddetektor 12 geliefert wird, und speichert dieses Bild, das danach als Referenzbild dient. Des Beispiels wegen wird davon ausgegangen, dass es sich bei dem Referenzbild um das in 2A abgebildete Referenzbild handelt. Der Bildverarbeitungsabschnitt 27 speichert dieses Referenzbild auf dem Festplattenlaufwerk 34 in einem Format mit hoher Auflösung. Der Bildverarbeitungsabschnitt 27 führt für jedes nachfolgende vom Bilddetektor 12 erzeugte Videobild eine Verarbeitung hinsichtlich des gespeicherten Referenzbildes aus, die analog zu der oben in Zusammenhang mit den 2B–2G beschriebenen verläuft.
Der Bildverarbeitungsabschnitt 27 speichert dann einen ausgewählten Teil des erodierten Bildes aus 2G auf dem Festplattenlaufwerk 34, nämlich den Teil, der eine Veränderung im Vergleich zum Referenzbild aus 2A widerspiegelt. Anders ausgedrückt, speichert der Bildverarbeitungsabschnitt 27 lediglich den Teil des erodierten Bildes aus 2G, der der Person 41 (2B) entspricht. Ferner wird, da der Teil des erodierten Bildes aus 2G, der gespeichert wird, nur einer Farbe entspricht, die Speichermenge, die für die Speicherung des ausgewählten Teils des erodierten Bildes benötigt wird, im Vergleich zur Speichermenge, die für die Speicherung desselben Teils des erodierten Bildes in einem Grauskala-Format benötigt würde, erheblich verringert. Genau gesagt, ist es möglich, nur eine Identifizierung dieses Teils des Bildes ohne Kontrastinformationen zu speichern, oder anders ausgedrückt, ohne jegliche Grauskala- oder Farbinformationen, da der Teil des Bildes, der gespeichert wird, einer einzigen Farbe (schwarz oder weiß) entspricht.
Somit führt der Bildverarbeitungsabschnitt 27 für jedes Videobild, das nach dem gespeicherten Referenzbild erzeugt wird, eine Verarbeitung aus, die analog zu derjenigen verläuft, die in Zusammenhang mit 2B bis 2G beschrieben wurde, und speichert dann nur eine Identifizierung des Teils des sich daraus ergebenden erodierten Bildes, der Unterschiede zum gespeicherten Referenzbild darstellt. Das gespeicherte Referenzbild und die gespeicherte Identifizierung einer Änderung oder eines Teils mit Bewegung jedes nachfolgenden Bildes stellen somit kollektiv komprimierte Bildinformationen dar.
Um diese komprimierten Bildinformationen, die auf dem Festplattenlaufwerk 34 gespeichert sind, zu dekomprimieren und anzuzeigen, würde der Bildverarbeitungsabschnitt 27 jedes Videobild dadurch rekonstruieren, indem er das gespeicherte Referenzbild (das in diesem Beispiel das Referenzbild aus 2A ist) anzeigt und dann auf dem Referenzbild in einer einzelnen einheitlichen Farbe eine Region einblendet, die auf den gespeicherten Informationen beruht, die eine veränderte Region identifizieren (die in diesem Bereich vom erodierten Bild aus 2G abgeleitet wurde). Das sich daraus ergebende Bild könnte auf der Anzeige 21 oder dem Arbeitsrechner 13 wie in 18 abgebildet, angezeigt werden.
Da die komprimierten Bildinformationen keine Grauskala- oder Farbinformationen beinhalten, mit Ausnahme des Referenzbildes, erscheint die Person oder das andere Objekt im rekonstruierten Bild in einer einheitlichen Farbe, wie zum Beispiel schwarz oder weiß. Trotzdem ist es bei der Rekonstruktion und der Anzeige von aufeinander folgenden Bildern leicht möglich, eine Person von einem anderen Objekt, wie zum Beispiel einer Aktentasche, zu unterscheiden und zu erkennen, dass die Person im überwachten Gebiet läuft oder sich anderweitig bewegt. In den meisten Fällen ist es möglich, mit relativ hoher Genauigkeit zu erkennen, wo die Person im überwachten Gebiet hinging und was die Person tat. In vielen Überwachungs- und/oder Sicherheitsanwendungen ist dies mehr als ausreichend, um die Anforderungen, für die das System bereitgestellt wird, zu erfüllen.
Als Beispiel für die Leistungsfähigkeit dieses Ansatzes nehmen wir eine Sequenz von 243 Frames oder Bildern an, von denen jedes einen unkomprimierten Speicherbedarf von 16437 Byte aufweist. Wenn die unkomprimierten, hoch auflösenden Informationen jedes der 243 Bilder gespeichert würde, wären 243 × 16437 = 3.994.191 Byte erforderlich, um die gesamte Sequenz zu speichern. Im Gegensatz hierzu wären, wenn das erste der 243 Bilder in voller Auflösung gespeichert würde, 16437 Byte erforderlich. Wenn man dann nur eine Identifizierung der Teile der anderen 242 Bilder, die sich vom Referenzbild unterscheiden, speichert, könnte die gesamte Speichermenge, die für die veränderten Regionen aus allen 242 Bildern erforderlich wäre, 47610 Byte betragen. Somit betrüge der gesamte Speicher, der für die gesamte Sequenz benötigt würde, circa 16437 + 47610 = 64047 Byte. Die sich daraus ergebende Komprimierungsrate in diesem bestimmten Beispiel ist somit 62:1. Die genaue Komprimierungsrate verändert sich natürlich von Situation zu Situation, je nachdem, wie viele aufeinander folgende Bilder mit einem bestimmten Referenzbild verbunden sind, und je nachdem, wie groß das Ausmaß ist, in dem sich die Bilder, die auf das Referenzbild folgen, vom Referenzbild unterscheiden. Wenn die Unterschiede in Hinblick auf das Referenzbild selten und minimal sind, wie es häufig im Zusammenhang mit einer Überwachung der Fall ist, ist die Menge an gespeicherten Informationen sehr minimal, und die tatsächliche Komprimierungsrate ist sehr hoch.
Die oben erörterte Komprimierungsrate kann weiter verbessert werden, indem die Komprimierungstechnik gemäß der Erfindung durch bestimmte bekannte Komprimierungstechniken ergänzt wird. Das Referenzbild könnte zum Beispiel als JPEG von 16437 Byte auf 3068 Byte komprimiert werden und die Informationen für die anderen 242 Bilder könnten mit Lempel-Ziv von 47610 Byte auf 20777 Byte komprimiert werden, was insgesamt 3068 + 20777 = 23845 Byte für die gesamte Sequenz mit 243 Frames ergibt. Dies entspricht in Hinblick auf die unaufbereiteten Videodaten von 3.994.191 Byte einer tatsächlichen Komprimierungsrate von 170:1.
Als Alternative zur Speicherung der Identifizierung der gesamten veränderten Region eines Objekts, wie oben in Zusammenhang mit 2G erörtert, wäre es auch möglich, nur einen Umriss dieser veränderten Region zu speichern. 19 zeigt zum Beispiel den Umriss der veränderten Region, die in 2G abgebildet ist. Bestehende MPEG-4 Komprimierungsstandards bieten bei der Speicherung von Umrissen eine ausgezeichnete Leistungsfähigkeit. Wenn ein bestimmtes Bild von den komprimierten Bildinformationen auf dem Festplattenlaufwerk 34 anschließend rekonstruiert wird, indem der Umriss im Referenzbild, das eine hohe Auflösung hat, eingeblendet wird, erscheint dieser so wie in 20 abgebildet. Es gibt keine Grauskala- oder Farbinformationen für ein bestimmtes Objekt oder eine Person, aber man kann trotzdem aus dem angezeigten Umriss leicht eine Person von einem anderen Objekt, wie zum Beispiel einer Aktentasche, unterscheiden und feststellen, wie die Person sich bewegt und was die Person tut.
Wie oben erörtert, gibt es viele Anwendungen, in denen die veränderte Region für eine Person oder ein anderes Objekt ohne die Speicherung von Kontrastinformationen, wie zum Beispiel Farb- oder Grauskalainformationen, ausreichend dargestellt werden kann. Es gibt jedoch einige Anwendungen, in denen es von Vorteil sein kann, einen begrenzten Anteil der Region von Interesse mit Kontrastinformationen (Farb- oder Grauskalainformationen) zu versehen. Wenn ein Objekt von Interesse zum Beispiel eine Person ist, kann es erwünscht sein, ein Grauskala- oder Farbbild des Gesichts der Person zu erhalten. Wie oben erörtert, ist der Bildverarbeitungsabschnitt 27 in der Lage, festzustellen, ob das Objekt eine Person ist oder nicht. Wenn festgestellt wird, dass das Objekt eine Person ist, kann der Bildverarbeitungsabschnitt 27 Grauskala- oder Farbinformationen nur für einen oberen Anteil der veränderten Region, die dem Objekt entspricht, speichern und er kann für die restliche veränderte Region nur eine Identifizierung ohne Grauskala- oder Farbinformationen speichern. Im aktuellen Beispiel würde dies dazu führen, dass die in 21 abgebildeten Informationen gespeichert würden. Da ein Anteil dieser Informationen ein Grauskalabild ist, erfordert dies mehr Speicherplatz als die einfache Identifizierung der durch das erodierte Bild aus 2G angegebenen veränderten Region oder des Umrisses dieser in 19 abgebildeten veränderten Region. Trotzdem erfordert dies immer noch erheblich weniger Speicherplatz als für die Speicherung des gesamten Videobildes benötigt würde oder für die Speicherung nur der veränderten Region mit Kontrastinformationen für die gesamte veränderte Region.
In noch einer anderen Abänderung könnte der Bildverarbeitungsabschnitt 27 ein Referenzbild mit hoher Auflösung speichern, aber dann jedes nachfolgende Bild nur mit dem unmittelbar vorhergehenden Bild vergleichen. Die für das aktuelle Bild gespeicherten Informationen würden lediglich die Unterschiede vom unmittelbar nachfolgenden Bild widerspiegeln, und nicht alle Unterschiede hinsichtlich des Referenzbildes. In dem bestimmten, in den Zeichnungen abgebildeten Beispiel wäre, wenn die Person 41 in 2B langsam den rechten Arm heben würde aber ansonsten bewegungslos bliebe, der einzige Unterschied zwischen dem aktuellen Bild und dem unmittelbar nachfolgenden Bild ein paar Änderungen, die mit der Bewegung des rechten Arms zusammenhingen, wie zum Beispiel mit der durchgezogenen Linie in 22 abgebildet ist. Offensichtlich sind wesentlich weniger Informationen erforderlich, um diese veränderte Region zu definieren, als der Fall wäre, wenn die der gesamten Person entsprechende veränderte Region definiert würde. Folglich ist die gesamte Speichermenge, die für die Speicherung der komprimierten Bildinformationen benötigt wird, sehr gering.
Wenn diese komprimierten Bildinformationen rekonstruiert werden, damit sie angezeigt werden können, würde eine Darstellung der veränderten Region im Speicher beibehalten und diese würde für jedes nachfolgende Bild leicht modifiziert werden, wenn dieses dekomprimiert wird, damit es angezeigt werden kann. Im aktuellen Beispiel würde das Bild der veränderten Region, das im Speicher beibehalten würde, an einem gewissen Punkt im Allgemeinen der in 22 in gestrichelter Linie angegebenen Region entsprechen. Wenn die Informationen, die der durchgezogenen Linie in 22 entsprechen, abgerufen würden, würde das im Speicher beibehaltene Bild basierend auf den in durchgezogener Linie abgebildeten Informationen modifiziert werden, und danach würde die Anzeige des aktuellen Bildes dadurch durchgeführt, dass das Referenzbild aus 2A angezeigt würde und dann die im Speicher beibehaltenen Informationen dafür verwendet würden, um auf dem angezeigten Referenzbild eine Region einzublenden, die der gestrichelten Linie in 22 entspricht, um ein Gesamtbild zu erhalten, das in etwa wie 18 erscheinen würde.
Wie vorher beschrieben, kann es unter bestimmten Umständen vorkommen, dass regelmäßig ein neues Referenzbild gespeichert werden muss. Unter Bezugnahme auf 2A kann eine Person zum Beispiel in den Raum gehen, eine Aktentasche oder ein anderes Objekt deponieren und dann den Raum verlassen. Ohne ein neues Referenzbild würde die Aktentasche hinsichtlich des Referenzbildes auf unbestimmte Zeit als eine veränderte Region erkannt werden, wodurch auf Grund der Bemühung, ein Objekt zu beobachten, das nicht mehr länger beobachtet oder überwacht werden muss, im Zeitablauf eine erhebliche Menge an Informationen gespeichert werden müsste. Dementsprechend speichert der Bildverarbeitungsabschnitt 27, wenn der Bildverarbeitungsabschnitt 27 feststellt, dass ein Unterschied zum Referenzbild besteht, aber für eine vorher festgelegte Zeitspanne, zum Beispiel fünf Minuten lang, keine Änderungen im aktuellen Bild auftreten, am Ende dieser vorher festgelegten Zeitspanne ein neues Referenzbild und analysiert dann alle nachfolgend erfassten Bilder hinsichtlich des neuen Referenzbildes an Stelle des ursprünglichen Referenzbildes.
Die oben beschriebenen Techniken sind alle einzig und allein von den Videobildern abhängig, die vom Bilddetektor 12, bei dem es sich um eine Videokamera handelt, erzeugt werden. Wie oben erörtert, kann das in 14 abgebildete System 300 optional einen weiteren Bilddetektor 319 umfassen, bei dem es sich im offenbarten Ausführungsbeispiel um einen Infrarotbilddetektor handelt. Die Bilddetektoren 312 und 319 sind natürlich entsprechend axial ausgerichtet, so dass die von jedem Detektor erfassten Bilder aufeinander ausgerichtet sind. Ein Videobild vom Bilddetektor 312 würde ausgewählt und auf dem Festplattenlaufwerk 34 gespeichert, um als Videoreferenzbild zu dienen. Gleichzeitig würde ein Infrarotbild vom Bilddetektor 319 temporär im Computer 324 als Infrarotreferenzbild gespeichert, es würde aber nicht unbedingt auf einem nicht abgebildeten Festplattenlaufwerk als Teil der komprimierten Bildinformationen gespeichert werden. Nachfolgende Infrarotbilder vom Bilddetektor 319 würden dann mit dem Referenzinfrarotbild in einer Weise verglichen, die analog zu der oben für Videobilder in Zusammenhang mit den 2A–2G beschriebenen Weise verläuft. Wenn Infrarotbilder auf diese Weise verarbeitet werden, sind die identifizierten veränderten Regionen natürlich diejenigen, die Temperaturunterschieden entsprechen, die fast ausnahmslos die Anwesenheit eines Menschen oder eines Tieres bedeuten, und nicht die Anwesenheit einer anderen Objektart, wie zum Beispiel einer Aktentasche.
Informationen, die jede erfasste veränderte Region in jedem Infrarotbild identifizieren, werden dann auf dem Festplattenlaufwerk gespeichert. Wenn die komprimierten Bildinformationen rekonstruiert werden sollen, wird das gespeicherte Referenzbild (das ein Videobild ist) angezeigt und die gespeicherten Informationen vom Infrarotbild, die die erfasste veränderte Region identifizieren, werden dazu verwendet, um die veränderte Region zu rekonstruieren und die veränderte Region auf dem Referenzvideobild einzublenden. Das sich daraus ergebende zusammengesetzte Bild ist dem in 18 abgebildeten Bild sehr ähnlich.
Die vorhergehenden Beispiele erörtern jeweils die Speicherung der komprimierten Bildinformationen auf dem Festplattenlaufwerk 34 des Bildverarbeitungsabschnitts 27. Man wird jedoch erkennen, dass der Bildverarbeitungsabschnitt 27 mit diesen komprimierten Bildinformationen auch andere Aktionen durchführen könnte. So könnte der Bildverarbeitungsabschnitt 27 zum Beispiel die komprimierten Bildinformationen über das Netzwerk 14 an den Arbeitsrechner 13 übertragen, und der Arbeitsrechner 13 könnte dann die Informationen auf der Anzeige 21 anzeigen und/oder die Informationen auf einem nicht abgebildeten Festplattenlaufwerk speichern.
Die vorliegende Erfindung bietet eine Reihe von technischen Vorteilen. Ein solcher technischer Vorteil besteht darin, dass das in den komprimierten Bildinformationen enthaltene Referenzbild in hoher Auflösung eine detaillierte Umgebung für die Überwachung liefert, während die von nachfolgenden Bildern gespeicherten Informationen unter Verwendung einer relativ kleinen Anzahl an Byte eine hohe zeitliche Auflösung bieten. Die hohe zeitliche Auflösung ermöglicht es einem Menschen, die rekonstruierten Bilder zu überwachen und leicht festzustellen, wenn sich eine Person im überwachten Gebiet befindet und was die Person tut. Ein weiterer technischer Vorteil besteht darin, dass die Dekomprimierung und die Anzeige effizient von einem kostengünstigen Universalrechner durchgeführt werden kann. Noch ein anderer Vorteil liegt darin, dass die gespeicherten Informationen, die die veränderten Regionen hinsichtlich des Referenzbildes identifizieren, ausreichend Informationen beinhalten, um die Ausführung einer automatischen Bewegungsanalyse unter Anwendung bekannter Techniken zu gestatten.
Obwohl die vorhergehende Offenbarung mehrere verwandte Techniken vorstellt, die die vorliegende Erfindung alle umfasst, wird man erkennen, dass es möglich ist, Änderungen, Ersetzungen und Abänderungen dieser Techniken vorzunehmen, ohne vom Umfang der vorliegenden Erfindung abzuweichen, der durch die folgenden Ansprüche definiert wird.

Claims

Verfahren für die Überwachung eines Gebiets, bei dem periodisch ein Bild des Gebiets erfasst wird, das folgendes umfasst: Subtraktion jedes erfassten Bildes von einem Referenzbild, Identifikation eines sich bewegenden Objekts durch das Verarbeiten jeder veränderten Region, in der ein aktuell erfasstes Bild vom Referenzbild abweicht, und Definition eines Objektbildes als Teil des aktuell erfassten Bildes, das jedem identifizierten sich bewegenden Objekt entspricht, dadurch gekennzeichnet, dass das Verfahren ferner folgendes umfasst: nach der ersten Identifizierung eines sich bewegenden Objekts erfolgende Speicherung des Objektbildes, das dem erfassten sich bewegenden Objekt entspricht; für jedes nachfolgend erfasste Bild automatische Auswahl eines vorherigen Objektbildes oder eines aktuellen Objektbildes jedes erfassten sich bewegenden Objekts unter Verwendung von Auswahlkriterien, Speicherung des ausgewählten Objektbildes jedes identifizierten Objekts und Verwerfen des nicht ausgewählten Objektbildes jedes identifizierten sich bewegenden Objekts, wodurch ein einzelnes Objektbild jedes entsprechenden sich bewegenden Objekts gespeichert wird.
Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass das Verfahren ein Objektbild eines identifizierten Objekts als Rahmen definiert, der gerade groß genug ist, um die entsprechende veränderte Region zu beinhalten, wobei die Auswahlkriterien dasjenige des vorherigen Objektbilds oder des aktuellen Objektbilds auswählen, dessen Rahmenunterseite niedriger im erfassten Bild ist.
Verfahren gemäß Anspruch 2, dadurch gekennzeichnet, dass die Auswahlkriterien dasjenige des vorherigen Objektbilds oder des aktuellen Objektbilds auswählen, das einen größeren Rahmen aufweist, wenn die Unterseite des Rahmens des vorherigen Objektbildes genau so niedrig wie die Unterseite des Rahmens des aktuellen Objektbildes ist.
Verfahren gemäß Anspruch 1, bei dem die Verbesserung dadurch gekennzeichnet ist, dass die Auswahlkriterien dasjenige des vorherigen Objektbilds oder des aktuellen Objektbilds auswählen, dessen entsprechende veränderte Region größer ist.
Verfahren gemäß einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass das Verfahren automatisch Bahninformationen speichert, die die Bewegungsbahn jedes erfassten sich bewegenden Objekts identifizieren, und dass das Verfahren ferner folgendes umfasst: Beibehaltung der Bahninformationen und des aktuell ausgewählten Objektbildes, nachdem das sich bewegende Objekt nicht mehr in den erfassten Bildern zu identifizieren ist; und Anzeigen des Referenzbildes, in das eine Bahn, die den Bahninformationen eines ausgewählten Objekts entspricht, und ein gespeichertes Objektbild des ausgewählten sich bewegenden Objekts an einer Stelle eingeblendet sind, die der Stelle des sich bewegenden Objekts zu dem Zeitpunkt entspricht, als das gespeicherte Objektbild identifiziert wurde.