Verfahren und Vorrichtung zur Erfassung von Objektfarben
Beschreibung
Die Erfindung betrifft Verfahren zur optischen Objekterfassung, insbesondere zur Erfassung von Objekt- und Segmentfarben (im folgenden kurz: Objektfarben), aber auch zur Erfassung geometrischer Objekteigenschaften, wie z.B. die Größe, Position und Entfernung von Objekten in einer Bildszene, und Vorrichtungen zur Anwendung der Verfahren. Unter Erfassung von Objektfarben wird allgemein die Ermittlung der Wahrnehmung von Objektfarben und somit die Ermittlung einer Farbangabe (z. B. Angabe einer Farbwahrnehmungsklasse) zu einem erfaßten Objekt verstanden, die ein Beobachter des Objekts in der aktuellen Szene bei visueller Betrachtung zur Bezeichnung seiner Farbwahrnehmung nennen würde oder wie sie in anderen psycho-physischen Experimenten objektiv bestimmt werden können (z.B. Nachmischen von Farben, Detektion, experimentelle Kompensationsexperimente) .
Das menschliche visuelle System ist dazu eingerichtet, in Bruchteilen von Sekunden beim Beobachter Eigenschaften einzelner Objekte oder Segmente im Gesichtsfeld bewußt werden zu lassen. Die betrachteten Objekte werden durch Informationen über die Farbe, Größe und Entfernung und dgl . erfaßt, wodurch insbesondere ein sicheres Bewegen im Raum ermöglicht wird. Die visuelle Objekterkennung erfolgt durch eine Erfassung von Objekt- oder Segmentgrenzen und eine Zuordnung von Objektfarben, denen auf der Grundlage der Erfahrung eine bestimmte Bezeichnung zugeordnet wird. Die Wahrnehmung von Objektfarben und -grenzen stehen in gegenseitiger Wechselwirkung. Die exakten Zusammenhänge bezüglich der Funktionsweise dieser Wechselwirkung im menschlichen Gehirn sind erst teilweise verstanden. Im Falle von Störungen im visuellen System (z.B. bei Blindheit
oder Farbenblindheit) wird die Obηekterkennung ganz oder teilweise beeinträchtigt, woraus sich z.B. Orientierungsprobleme ergeben.
Es sind verschiedene Systeme bekannt, um blinden oder sehschwachen Personen die Erkennung von Gegenstanden oder deren Betrachtung zu ermöglichen oder zu erleichtern. Auf der Grundlage des Global Positioning System (GPS-System) wurde ein "Personal Guidance System" genanntes, satellitengesteuertes Leitsystem entwickelt, mit dem sich Personen mit Sehstorungen mit Hilfe eines elektronischen Kompaß wichtige Orte wie z.B. Bushaltestelle oder Telefonzellen orten lassen können. Bei diesem System erfolgt keine Obiekterkennung. Es ist nur für Objekte anwendbar, die in den systeminternen Topografien gespeichert sind. Damit ist das GPS-System auf spezielle Anwendungen, z.B. im öffentlichem stadtischen Raum, beschrankt und beispielsweise in engen, geschlossenen Räumen mit zahlreichen, ggf. beweglichen Gegenstanden nicht nutzbar.
Es ist ferner ein als Sehhilfe für Personen mit reduzierter Sehleistung, kommerziell angebotenes Farberkennungsgerat bekannt ("Color Test 150", Anbieter Care Tee Deutschland GmbH), bei dem mit einem Sensor punktweise eine Farbmessung erfolgt, deren Ergebnisse (Farbton, Helligkeit und Sättigung des vermessenen Punktes) über einen Lautsprecher ausgegeben werden. Die lokale Farbmessung mit einem einzigen Sensor besitzt die folgenden Nachteile.
Die menschliche oder visuelle Farbwahrnehmung in Bezug auf einen bestimmten Bereich im Gesichtsfeld (Punkt, Obηekt, Segment) ist einerseits von rein lokalen Eigenschaften dieses Bereichs abhangig (hauptsächlich vom lokalen Reflexionsgrad und von der spektralen Energieverteilung der Beleuchtung bzw. bei Selbstleuchtern von der ausgesandten Strahlung) . Andererseits ist die menschliche Farbwahrnehmung auch von der Umgebung des betrach-
teten Bereiches abhangig. So laßt sich z.B. allem durch Änderung der Umgebung die wahrgenommene Farbe beeinflussen, was sich beispielsweise beim simultanen Farbkontrast bzw. bei der Farbinduktion und in extremer Form beim sogenannten Land-Effekt zeigt. Der Umgebungseinfluß auf die wahrgenommenen Farben eines bestimmten Bereiches nimmt mit zunehmenden Abstand ab. Die unmittelbare Umgebung ist somit von besonderer Bedeutung für die Farbwahrnehmung. In welcher Weise die Gradienten, die durch die Form von Objekten oder durch Inhomogenitäten der Beleuchtung hervorgerufen werden, sich auf die Farbwahrnehmung auswirken, ist bislang nur teilweise geklart. So ist beispielsweise die Farbkonstanzleistung des Gehirns (Invarianz der wahrgenommenen Objektfarbe bezüglich Beleuchtungsanderungen) erst zum Teil verstanden (siehe Publikation „Computational modeis of color constancy" A. C. Huribert in „Perceptual Constancy", Hrsg. V. Walsh et al . , Cambridge Umversity Press, Cambridge, 1998).
Beim lokal messenden Farberkennungsgerat werden die Umgebungsfarben nicht berücksichtigt, so daß die Farbwahrnehmung im allgemeinen verfälscht angegeben wird.
Außerdem muß das Farberkennungsgerat in die Nahe des zu messenden Objektes gebracht werden. Die Messungen beziehen sich nur auf die implementierten Lichtarten, so daß bereits die lokale Farbmessung starken Einschränkungen unterworfen ist. So schließt eine Punktmessung aus, daß zwischen Objekt- und Beleuchtungsfarbe unterschieden werden kann, sofern nicht eines von beiden bekannt ist. Für Farbwahrnehmungen, die stark von der Umgebung abhangen, wie z.B. "Braun" oder "Grau", kann das Gerat bauartbedingt keine richtigen Ergebnisse liefern.
Weitere Nachteile des herkömmlichen Farberkennungsgerates bestehen darin, daß keine Angaben über geometrische Objekteigenschaften wie z.B. die Objektgroße oder die Entfernung bestimmter Objekt im Raum geliefert können. Außerdem ist es nicht mog-
lieh, Farben des Hintergrundes (z.B. des Himmels bzw. von Hintergrundsegmenten) zu vermessen.
Das Interesse an einer Farberkennung, mit der die menschliche Farbwahrnehmung simuliert wird, ist nicht auf das Gebiet der Sehhilfen beschränkt. Es besteht vielmehr auch im Bereich der Druck-, Lebensmittel- und Chemieindustrie sowie im Graphik- und Designbereich ein Bedarf an möglichst objektiven Mitteln zur Objekterfassung, insbesondere zur Erfassung der Farbwahrnehmung von farbigen Produkten.
In der Publikation von Q. Chen et al . in „Proc. of IEEE Intern. Conference on Computer Vision,, Cambridge, MA, USA, 1995, Seite 591 ff., ist ein Verfahren zum Erkennen menschlicher Gesichter in Bildern auf der Grundlage der Erfassung der Gesichtsfarbe bekannt. Dabei wird einzelnen Bildpixeln unter Verwendung einer Fuzzy-Klassifizierung jeweils eine Farbe zugeordnet und diese Farbe in Bezug auf die Zugehörigkeit zu bestimmten Gesichtsfarben untersucht. Die pixelweise Klassifizierung erlaubt allgemein keine Rückschlüsse auf die durch einen Beobachter wahrge- nommmene Farbe. Nur in Kombination mit anderen Eingangsinformationen (geometrische Informationen oder Informationen aus Vergleichsbeispielen) wäre eine Zuordnung zu Wahrnehmungsklassen möglich. Dies kann für spezielle Objekte mit bekannten charakteristischen Eigenschaften sinnvoll sein, besitzt aber in Anbetracht der praktisch unendlichen Zahl von Objekten und Betrachtungsbedingungen eine ungenügende Leistungsfähigkeit. Dies gilt insbesondere bei der Anwendung als Sehhilfe, bei der im allgemeinen keine Zusatzinformationen über Objekte im Sehfeld gegeben sind. Die Technik gemäß Q. Chen et al. ist für eine allgemein anwendbare Farberkennung mit Simulierung der menschlichen Farbwahrnehmung somit ungeeignet.
Ein weiteres Farbklassifikationsverfahren ist aus der Publikation von K.-H. Franke et al . in „Mustererkennung 1994", 16.
DAGM-Symposium, Wien, Springer-Verlag, Seite 624 ff., bekannt, das speziell auf die Erkennung von Mikrodefekten auf Halblei- teroberflachen zugeschnitten ist. Dieses Verfahren ist im wesentlichen durch dieselben Beschrankungen nachteilig, die oben unter Bezug auf die Gesichtserkennung genannt wurden. So erfolgt eine Farbauswertung an Einzelpixeln unter der Vorgabe vorbestimmter Modellfarben. Eine Aussage über eine menschliche Farbwahrnehmung ist damit bestenfalls für die bekannten Halb- leiterstrukturen und deren bekannte Fehler möglich. Schon beim Auftreten neuer (unbekannter) Fehler wurde dieses herkömmliche Verfahren versagen.
Es ist die Aufgabe der Erfindung, verbesserte Verfahren zur optischen Ob ekterfassung anzugeben, die insbesondere eine Farbangabe zu einem erfaßten Objekt ermöglichen, die möglichst genau und reproduzierbar an die menschliche Farbwahrnehmung angepaßt ist und die einen erweiterten Anwendungsbereich in Bezug auf erfaßbare Objekte und/oder die technischen Anwendungsmog- lichkeiten besitzen. Die Aufgabe der Erfindung ist es auch, Vorrichtungen zur Implementierung derartiger Verfahren anzugeben .
Diese Aufgabe wird durch ein Verfahren bzw. eine Vorrichtung mit den Merkmalen gemäß Anspruch 1 bzw. 15 gelost. Ausfuhrungs- formen und Verwendungen der Erfindung ergeben sich aus den abhangigen Ansprüchen.
Das erfmdungsgemaße Verfahren umfaßt insbesondere eine Datenoder Bildaufnahme, eine Bildsegmentierung, bei der ein bestimmtes Objekt oder Bildsegment aufgrund eines für dieses Objekt im wesentlichen unveränderlichen Bildparameters von benachbarten Objekten abgegrenzt wird, und eine Klassifizierung der Objektfarbe durch Zuordnen von Farbparametern des segmentierten Objekts zu einem bestimmten Farbwert in einem Farbraum. Die Bildaufnahme erfolgt vorzugsweise mit einer Bildaufnahmeeinπch-
tung, die zur Abbildung einer Objektanordnung in einer Szene und zur Bereitstellung vollständiger Bilddaten (Helligkeitsund/oder 'Farbwerte) des aufgenommenen Bildes, vorzugsweise in digitalisierter Form, eingerichtet ist. Der zur Bildsegmentierung bevorzugt herangezogene Bildparameter ist der Farbton. Die Objektklassifizierung erfolgt vorzugsweise unter Verwendung von Methoden der Fuzzy-Logik, wie z.B. Fuzzy-Clustering und/oder Fuzzy-Control .
Gemäß einer bevorzugten Ausführungsform der Erfindung erfolgt nach der Bildsegmentierung eine Segmentreduzierung, die auf eine Vereinfachung der Komplexität der Szene gerichtet ist. Bei der Segmentreduzierung werden die Bildpunkte, die zu dem erfaßten Objekt oder Bildsegment gehören und eine fallabhängig komplizierte Segmentgeometrie bilden, durch eine Gruppe von Bildpunkten ersetzt, die eine Segmentfläche in Gestalt einer regelmäßigen, geradlinig oder schwach gekrümmten Grundform, (z.B. Rechteck, Kreis, Ellipse oder dergleichen) bilden. Das reduzierte Bildsegment wird vorzugsweise derart gewählt, daß es vollständig das ursprungliche Segment abdeckt. Beispielsweise ist vorgesehen, daß das zunächst erfaßte Objekt oder Bildsegment reduziert wird, indem es vollständig von einem rechteckigen Rahmen umgeben und die vom Rahmen eingefaßten Bildpunkte als das reduzierte Bildsegment erfaßt werden. Zur Ermittlung eines für das reduzierte Bildsegment charakteristischen Bildparameters wird über alle Farbwerte gemittelt, die den segmen- tierten Bereich, also im zunächst nicht reduzierten Bildsegment, auftreten. Die Segmentreduzierung stellt einen unerwarteten und für die folgende Objektklassifizierung wichtigen Vorteil dar. Es wurde festgestellt, daß das Ergebnis der erfindungsgemäßen Farberkennung durch die Segmentreduzierung nicht oder im Rahmen der jeweiligen Anwendung vernachlässigbar gering beeinflußt wird. Außerdem vereinfacht die Segmentreduzierung das im Rahmen der Objektklassifizierung durchgeführte Fuzzy- Control-Verfahren, dem die Zahl der für das Fuzzy-Control-
Verfahren abzuarbeitenden Entscheidungen auf eine m der Praxis annehmbare Zahl reduziert wird.
Eine erfmdungsgemaße Vorrichtung erfaßt eine Daten- oder Bild- aufnahmeemrichtung, z.B. eine Digitalkamera, eine Segmentierungseinrichtung, eine Klassifizierungseinrichtung und eine Ausgabeeinrichtung. Gemäß einer bevorzugten Anwendung der Erfindung bildet die Vorrichtung ein Hilfsgerat für Sehschwache oder Blinde, das zur Erfassung von Objekten, zur Bestimmung von deren Große, Entfernung und Farbe und zur hörbaren oder tastbaren Ausgabe dieser Großen eingerichtet ist.
Unter optischer Objekterfassung wird hier die Erfassung der Farbwahrnehmung, Große, Position und/oder Entfernung vom Betrachter bzw. von der Bildaufnahmeemπchtung für ein Objekt in einer abgebildeten Szene verstanden. Ein Objekt ist ein im zweidimensionalen Bild aufgrund eines bestimmten Bildparameters von der Umgebung unterscheidbarer Ausschnitt (Segment) .
Bevorzugte Anwendungen der Erfindung liegen im Bereich der Erstellung von Sehhilfen und von Meßgeraten für die Druck-, Lebensmittel- und Chemietechnik sowie im Graphik- und Designbe- reich. Bei der erfmdungsgemaß Objekterfassung als Sehhilfe wird neben der genannten Klassifizierung der Objektfarbe auch eine Klassifizierung geometrischer Objektparameter oder eine Objekterkennung (z.B. Schrifterkennung) vorgenommen. Die Ausgabeeinrichtung ist für sehbehinderte Personen vorzugsweise durch einen Lautsprecher gegeben. Die Sehhilfe erlaubt insbesondere die Orientierung und ein sicheres Bewegen im Raum.
Die Erfindung besitzt die folgenden Vorteile. Mit dem erfin- dungsgemaßen System wird reproduzierbar ein Zusammenhang zwischen physikalischen (photometrischen) Meßgroßen und der menschlichen Farbwahrnehmung hergestellt. Dabei werden vorteil- hafterweise nicht die Farbmerkmale einzelner Bildpunkte, son-
dern ganzer Bildsegmente und die Farbmerkmale des Umfeldes der Bildsegmente erfaßt, die für die Farbwahrnehmung von Bedeutung sind. Erstmalig werden ein Segmentierungsverfahren und Elemente der Fuzzy-Logik (Eingangs- und Ausgangsgroßen für die Fuzzy- Inferenz, Operatoren und Regeln) n einer optimal an die menschliche Farbwahrnehmung von unbekannten Objekten in realen Szenen (z.B. Lebensraum in täglicher Umgebung) angepaßten Weise gewählt
Die Erfindung besitzt einen breiten Anwendungsbereich und ist insbesondere gut für Applikationen bei Alltagssituat onen anwendbar. Es wird eine Farberkennungsemrichtung geschaffen, die neben den photometrischen Meßdaten auch erlaubt, Eigenschaften der Neurologie, Physiologie und Psychologie des Sehens sowie linguistische, semantische und kulturelle Aspekte der Farbwahrnehmung zu berücksichtigen. Es wird eine zuverlässige Sehhilfe für Blinde oder Farbfehlsichtige geschaffen, mit der auch vom Betrachter entfernt angeordnete Objekte sicher erfaßt und klassifiziert werden können. Es ist möglich, sowohl die Farbwahrnehmung als auch die Großen-, Positions- und Entfernungsbestimmung m einem Gerat zu integrieren. Die mit der Erfindung erstmalig simultan implementierte Erfassung sowohl der Farbwahrneh- mungsmformation als auch der Entfernungsinformation stellt einen wichtigen Vorteil der Erfindung bei Sehhilfeanwendungen dar. Es ist die Erfassung verhältnismäßig komplexer realer Szenen, auch m kleinen, geschlossenen Räumen mit einer Vielzahl von Objekten möglich. Die erfmdungsgemaße Vorrichtung kann aus an s ch, kommerziell verfugbaren Komponenten aufgebaut sein, so daß das System kostengünstig hergestellt werden kann. Die er- f dungsgemaße Vorrichtung laßt sich miniaturisieren, so z.B. bis hm zum Aufbau einer w e e ne Brille getragenen Sehhilfe, wobei die Ausgabeeinrichtung als Ohrhörer implementiert wird. Die Erfindung ist in der Farbforschung (Entwicklung von Far- braumen und Wahrnehmungsmodellen) anwendbar und für spezielle
Anwendungen bei Verwendung der Fuzzy-Logik-Methoden optimal adaptierbar .
Im Gegensatz zu herkömmlichen Techniken bietet die Anwendung der Erfindung als Sehhilfe erstmalig die Möglichkeit für die Betroffenen, sich mit Hilfe eines einzigen Gerätes im Raum orientieren zu können. Über die Farbinformation wird die Orientierung und damit e n sicheres Bewegen im Raum ermöglicht. Die erfmdungsgemaße Erfassung der Farbwahrnehmung besitzt eine hohe Stabilität dahingehend, daß auf der Grundlage von Ent- scheidungsregeln, die an einfachen Testobjekten ermittelt wurden, beliebige Bildsituationen der natürlichen Umwelt zuverlässig ausgewertet werden können.
Weitere Vorteile und Einzelheiten der Erfindung werden im folgenden unter Bezug auf die beigefugten Figuren beschrieben. Es zeigen
F g. 1 ein Flußdiagramm zur Illustration des erf dungsgema- ßen Verfahrens,
Fig. 2 ein Flußdiagramm des Ablaufs einer Daten- oder Bilderfassung,
Fig. 3 ein Flußdiagramm des Ablaufs einer Segmentierung,
Fig. 4 ein Flußdiagramm zur Illustration von Fuzzy-Methoden,
Fig. 5 ein Bildbeisp el zur Illustration der Segmentierung,
Fig. 6 ein Bildbeispiel zur Illustration der Segmentreduzierung,
Fig. 7 einen dreidimensionalen RGB-Farbraum mit acht Hy- perspharen und zugehörigen Cluster-Zentren,
Fig. 8 eine graphische Illustration einzelner Regelsatze einer Fuzzy-Inferenz, und
Fig. 9 eine Blockdarstellung einer erf dungsgemaßen Vorrichtung .
Die Erfindung wird im folgenden am Beispiel eines Systems zur Objekterfassung beschrieben, das als Sehhilfe eingerichtet ist. Bei anderen Anwendungen der Erfindung werden die erläuterten Verfahrensweisen analog implementiert, wobei jedoch ggf. Modifizierungen m Bezug auf die Datenerfassung und die Ergebnisausgabe erfolgen.
Entsprechend der Ubersichtsdarstellung gemäß Fig. 1 erfaßt e erfmdungsge aßes Verfahren die Schritte Datenerfassung 20, Segmentierung 30, Farbklassifizierung 40 und Ergebnisausgabe 50. Vor Beendigung des Verfahrens (Ende 60) erfolgt e nach dem Klassifizierungsergebnis ggf. zeitgleich vor oder simultan zur Ergebnisausgabe em Rucksprung zur Datenerfassung 20 oder Segmentierung 30, um ggf. eine Fokussierung auf em bestimmtes Objekt oder eine veränderte Segmentierung vorzunehmen. Nach der Segmentierung 30 sollte der Schritt Segmentreduzierung 30a vorgesehen sein. D e Segmentreduzierung 30a besitzt Vorteile für die spatere Anwendung der Entscheidungsregeln bei der Fuzzy- Inferenz (Reduzierung der Regelzahl), stellt jedoch kein zwingendes Merkmal der Erfindung dar. Einzelheiten der Schritte 20 bis 40 sind in den Figuren 2 bis 4 dargestellt.
Die Datenerfassung 20 (oder Bilderfassung) umfaßt gemäß Fig. 2 zunächst einen Systemabgleich 21, bei dem eine Bildaufnahmeeinrichtung (z.B. Digitalkamera oder Scanner) zur folgenden Bildaufnahme 22 vorbereitet wird. Der Systemabgleich 21 umfaßt beispielsweise bei kommerziell verfugbaren Kameras einen automatischen Weißabgleich (Abstimmung auf d e verwendete Lichtart -
WO 00/13143 ι rL PCT/EP99/06240
z.B. Kunst- oder Tageslicht, wobei beispielsweise der hellste Bildpunkt als weiß bzw. als Farbe der Lichtquelle interpretiert wird) oder eine automatische Belichtungsmessung in Kombination mit einer Verstarkungssteuerung (z.B. Abstimmung unter der Voraussetzung, daß dem hellsten Bildpunkt die größtmöglichen Farbwerte zugewiesen werden) . Mit derartigen Formen des Systemab- gleichs ist in der Regel eine ausreichende Reproduktion der Farben der aufgenommenen Szene möglich. Der Systemabgleich 21 kann jedoch speziell angepaßte Algorithmen oder Kalibrierungen verwenden, um die Bildaufnahme auf konstrastarme Szenen oder auf Bildszenen mit extremer Beleuchtung abzustimmen.
Beim Systemabgleich 21 kann auch eine Entfernungsmessung durchgeführt werden. Hierzu wird beispielsweise ein kamerainternes, auf Kontrastbeziehungen basierendes Autofocus-System oder auch für Prazisionsmessungen eine laser-basierte Entfernungsmessung verwendet .
Nach der eigentlichen Bildaufnahme 22 zur Erstellung eines digitalen Farbbildes (Belichtungs- oder Scan-Vorgang) folgt die Bilddatenerzeugung 23 durch Bildung eines Datensatzes, der die Rot-, Grün- und Blauwerte (R-, G-, B-Werte) jedes Pixels des digitalen Farbbildes, die jeweils diskrete Werte zwischen einem minimalen und einem maximalen Wert annehmen können, umfaßt. Die Bilddaten umfassen somit drei Farbebenen mit den R-, G-, B- Werten eines jeden Pixels. Die Pixelzahl eines mit einer Kamera aufgenommenen Digitalb ldes betragt beispielsweise 740 • 568 Pixel. Die Digitalisierungstiefe betragt z.B. 24 Bit (8 Bit pro Farbkanal), was rund 16,7 Millionen Farben entspricht. Parameter der digitalen Bildverarbeitung wie beispielsweise die Pixelzahl oder die Digitalisierungstiefe können jedoch anwen- dungsabhangig variiert werden.
Bei der Segmentierung 30 erfolgt gemäß Fig. 3 zunächst eine Farbtransformation 31 von den einzelnen R-, G- und B-Ebenen des
Farbbildes in einen an die weitere Segmentierung (s. unten) angepaßten Farbraum. D e Farbtransformation 31 ist anwendungsab- hangig em fakultativer Schritt, der jedoch aus den folgenden Gründen bei der Implementierung der Erfindung als Sehhilfe bevorzugt realisiert wird.
Die Betrachtung der einzelnen R-, G- und B-Ebenen eines Farbbildes zeigt, daß der RGB-Farbraum nur beschrankt zur sprachüblichen Charakterisierung von Farben und zur Bildsegmentierung geeignet ist. So kann beispielsweise aus den R-, G- und B- Anteilen eines Objekts nur unter wohldefmierten Bedingungen auf die wahrgenommene Farbe ruckgeschlossen werden. Da die im RGB-Bild enthaltenen Informationen die Objekte in Bezug auf die Farbe und (abgesehen von der Dimensionsreduzierung bei 2D- Bildern) auch Geometrie vollständig charakterisieren, besteht das Ziel der Farbtransformation 31 darin, diese Informationen einen optimalen auswertbaren Parameterraum (Farbraum) zu übertragen .
Die Farbtransformation 31 der RGB-Werte kann beispielsweise eine lineare Transformation z.B. in CIE-XYZ-Werte oder in Farbwerte, die den Zapfensignalen im Auge entsprechen (LMS-Signale) oder nichtlineare Transformationen in Farbraume umfassen, die der menschlichen Wahrnehmung und der üblichen farblichen Beschreibung der Farbwahrnehmung besser angepaßt sind. Diese Farbraume umfassen beispielsweise den HSL-Raum (Farbton- Sattigung-Helligkeit oder Hue-Saturation-Lightness-Raum) , einen HSV-Raum, den CIE-L*a*b*- oder CIE-L*habC*ab -Raum, den CIE- L*u*v*-Raum oder dgl . Die Farbtransformation 31 kann auch in jungst entwickelte Farbwahrnehmungsraume (entsprechend den sog. "Color Appearance"-Modellen, wie das CIE-CAM '97 nach R.W.G. Hunt, oder den RLAB-Raum nach M. D. Fairchild) mit Dimensionen wie "Bπghtness" , "Lightness", "Colorfullness" , "Chroma", "Hue", oder "Saturation" fuhren (s. hierzu auch Mark D. Fairchild "Color Appearance Models", Edison-Wesley, 1998).
Nach der Farbtransformation 31 erfolgt im Zielfarbraum eine Parameterwahl 32, bei der eine Dimension oder em Parameter des Zielfarbraumes ausgewählt wird, der innerhalb eines Objekts oder Segments nahezu konstant ist und sich an Objektgrenzen möglichst stark ändert. Diese Parameterwahl 32 erfolgt somit anwendungsabhangig je nach gewähltem Zielfarbraum.
Die Segmentierung 30 erfolgt vorzugsweise mit einer Farbtransformation 31 vom RGB-Bild in den HSV- oder L*habC*ab-Raum, wobei als bevorzugter Parameter der H-Wert (Farbton oder Hue-Wert) gewählt wird. Der H-Wert zeigt sich innerhalb eines einfarbigen Objekts in einer dreidimensionalen Szene ausreichend konstant. Die Segmentierung erfolgt daher vorzugsweise in der Farbton- Ebene, in der sich die Objekte bzw. Hintergrundbereiche besonders effektiv voneinander trennen lassen.
Im weiteren Verfahren erfolgt zunächst die Startpixelwahl 33. E bestimmtes Pixel der Szene in der Farbton-Ebene wird als Startpixel für die weitere Segmentierung ausgewählt. Eine typische Wahl ist beispielsweise em Pixel n der Bildmitte oder in einem vorher ermittelten Bereich. Dieser vorher ermittelte Bereich zeichnet sich beispielsweise durch besondere Bildmerkmale aus, die eine Unterscheidung eines Objekts von der jeweiligen Umgebung z.B. aufgrund des Farbtons, des Kontrasts, der Helligkeit oder dergleichen erlauben. Die Segmentierung kann auch dahingehend modifiziert sein, daß nicht em bestimmtes Objekt ausgewählt wird, sondern daß das gesamte Bild segmentiert wird. Das komplette Digitalbild wird wie folgt in relevante Segmente eingeteilt. Das Bild wird vollständig in em zu bestimmendes Objekt (eine zusammenhangende Pixelflache) und dessen Umgebungssegmente sowie eventuelle Locher segmentiert. Mittels Ge- wichtung der Umgebungssegmente und Locher (hier gehen die Entfernung, Große, Position und Kontrast usw. bezüglich des zu bestimmenden Objektes em) wird unter Verwendung von Fuzzy-
Control-Klassiflzierungsverfahren die wahrgenommene Farbe berechnet. Anschließend erfolgt ggf. die Bewertung und Klassifizierung jedes weiteren Segments in Bezug auf alle anderen Segmente z.B. mit dem Fuzzy-Control-Verfahren, wie es unten erläutert wird.
Beim nachfolgenden Segmentwachstum 34 werden zuerst die an das Startpixel angrenzenden Pixel erfaßt, deren H-Wert eine Differenz vom H-Wert des Startpixels zeigt, die kleiner als em vorbestimmter Schwellwert ist. Anschließend werden die angrenzenden Pixel der beim ersten Schwellwertvergleichsschritt ermittelten Nachbarpixel des Startpixels untersucht, ob der H-Wert innerhalb eines vorbestimmten H-Intervalls um den H-Wert des Startpixels liegen. Durch diese Schwellwertvergleichsschritte erfolgt ausgehend vom Startpixel das Wachstum einer Pixelgruppe bis an die Grenzen des entsprechenden Objekts, in dessen Abbil- dungsbereich der Startpixel liegt, da an den Grenzen die H- Werte starker als die zugelassene Toleranz (H-Intervall) veränderlich sind.
Es wurde festgestellt, daß die beim Segmentwachstum 34 ausgewählten Bereiche in der Regel gut mit Grenzen oder Segmentgrenzen des Hintergrundes übereinstimmen. Außerdem hat sich gezeigt, daß be diesem Segmentwachstum Reflexe der Lichtquelle (häufig weiß) nicht mit ausgewählt oder segmentiert werden, selbst wenn sie innerhalb des betrachteten Objektes liegen. Dies ist em besonderer Vorteil des erfmdungsge aßen Verfahrens, da sich die Klassifizierung der Farbwahrnehmung unabhängig von Reflexen in vielen Fallen als vorteilhaft erweist, da sich Reflexe nachteilig auf die Mittelwertbildung bzw. Integration über die Objektflache auswirken. Es ergeben sich zwar Einschränkungen bei der Ausgabe der Objektausdehnung, die bei praktischen Anwendungen als Sehhilfe jedoch in der Regel von geringer Bedeutung sind, was im Einzelfall vom Bildinhalt abhangen kann.
Bei der folgenden Beurteilung 35 wird das ermittelte Segment oder Objekt Bezug auf seine geometrischen Eigenschaften bewertet. Falls em ausgewähltes Objekt bestimmten Randbedingungen nicht genügt, die zuvor festgelegt werden, z. B. wenn der gesamte Bildmhalt oder nur e Pixel ausgewählt ist, so besteht die Möglichkeit eines Rucksprungs zur Parameterwahl 32 und/oder zur Startpixelwahl 33. Diese Schritte können mit dem Segmentierungswachstum 34 und einer Beurteilung 35 so oft wiederholt werden, bis em ausreichend bestimmtes Ergebnis vorliegt. Anschließend erfolgt eine Grenzermittlung 36. Dabei wird die äußere bzw. innere Umrandung des gewachsenen Objekts als Datensatz ermittelt. Die Objektsegmentierung umfaßt somit die Ermittlung aller Bildpunkte innerhalb der Umrandung.
Figur 5 zeigt beispielhaft eine bei Abbildung einer Ampel 50 (in der Originalvorlage : rote Farbe des Ampelmannchens) ermittelte Grenze 51 des durch die Figur gebildeten Bereiches gleichen Farbtons .
Das hier vorgestellte Segmentierungsverfahren eignet s ch vorteilhafterweise auch für die zweidimensionalen Bilder von realen komplexen Szenen mit dreidimensionalen Objekten. Falls die betrachteten Szenen in der Farb-tonebene keine Informationen über die Objektgrenzen liefern, so müssen Informationen aus anderen Ebenen des jeweiligen Farbraumes oder sogar aus anderen Farbraumen hinzugezogen werden. Hierzu ist beispielsweise e Rucksprung vom Beurteilungsschritt 35 zur Farbtransformation 31 implementierbar .
Die Objektsegmentierung gemäß Fig. 3 ist kein zwingendes Merkmal des erfmdungsgemaßen Verfahrens . Anwendungsabhangig kann die Segmentierung vollständig unterlassen oder durch einen anderen Segmentierungsvorgang ersetzt werden, bei dem Objekte und Segmentgrenzen nicht aufgrund der Farbe sondern mit anderen
Merkmalen erkannt werden (z.B. Segmentierung durch Beobachtung zeitabhängiger Positionsanderungen von Objekten oder der Kamera oder durch Verwendung von Kanten-Detektionsalgoπthmen (z. B. Gradientenverfahren) ) . Bei der Segmentierung konnten dann auch Angaben über die Objektgeschwindigkeit, Bewegungsrichtung, Beschleunigung und dergleichen als Ergebnis geliefert werden. Nach der Grenzermittlung 36 erfolgt fakultativ die Segmentreduzierung 30a (siehe auch Figur 1) . Bei der Segmentreduzierung 30a werden die innerhalb der Umrandung ermittelten, zum Segment gehörigen Bildpunkte durch eine größere Bildpunktmenge ersetzt, die d e zum Segment gehörigen Bildpunkte und weitere Bildpunkte zur Bildung einer vereinfachten Segmentflache umfaßt. Beispielsweise wird im Rahmen der Segmentreduzierung 30a das in Figur 6 illustrierte, zunächst ermittelte unregelmäßige Bildsegment 61 durch das reduzierte Bildsegment 62 ersetzt. Das reduzierte Bildsegment 62 ist beispielsweise, wie dargestellt, em Rechteck mit Seitenlangen, die den maximalen Ausdehnungen des ursprünglichen Bildsegments m zwei zu einer senkrecht stehenden Richtungen entsprechen. Alternativ kann z.B. auch em reduziertes Bildsegment 63 in Form einer Ellipse gebildet werden. Nach Ermittlung aller zum reduzierten Bildsegment gehörigen Bildpunkte wird dem reduzierten Bildsegment em mittlerer Farbwert zugeordnet, der dem Mittelwert über sämtliche Farbwerte im ursprünglich segmentierten Bereich entspricht.
Im folgenden wird die Klassifizierung 40 der Objektfarbe (s. Fig. 1) unter Bezugnahme auf das Flußdiagramm gemäß Fig. 4 und die Darstellung der Cluster-Zentren im RGB-Farbraum gemäß Fig. 6 erläutert. Zur Farbklassifizierung werden Methoden der Fuzzy- Logik verwendet. Hierzu zahlen insbesondere die im folgenden als Fuzzy-Clustermg bezeichnete einfache Cluster-Zuordnung und die im folgenden Fuzzy-Control bezeichnete komplexere Cluster- Zuordnung .
Ausgangspunkt der Klassifizierung ist das Fuzzy-Clustermg. Die Kombination mit Fuzzy-Control oder die iterative, wiederholte Abarbeitung beider Verfahrensweisen (zur Erzeugung von Unterklassen übergeordneter Hauptklassen) sind fakultativ zur Verbesserung des Verfahrens realisierbar. Gemäß einer Ausfuhrungsform der Erfindung ist jedoch auch Fuzzy-Control, das genauere Farbwahrnehmungsangaben ermöglicht, alle e und ohne das vorherige Fuzzy-Clustermg implementiert, was zwar schneller Farbwahrnehmungsangaben ermöglicht, dies jedoch mit einer gröberen Einteilung .
Beim Fuzzy-Clustermg werden vorbestimmte Bezugs-Farbraume in unscharfe Hyperspharen eingeteilt, in deren Zentren jeweils die wichtigsten Repräsentanten einer Wahrnehmungsklasse liegen. Dies bezieht sich beispielsweise auf Farbton-, Helligkeits- oder Sattigungsklassen oder auf die von Berlin und Kay ermittelten elf Farbklassen bezüglich der Benennung von Farben. Einem segmentierten Objekt wird dann em Farbmerkmal durch dessen Lage in Bezug auf die Hyperspharen bzw. die Cluster-Zentren zugeordnet. Bei der Fuzzy-Control-Klassiflzierung erfolgt diese Zuordnung zusätzlich unter Berücksichtigung von weiteren, komplexen Merkmalen der Szene, wie z.B. den Farbwerten von Umgebungsobjekten, Kontrastbeziehungen zu anderen Bildsegmenten, Abhängigkeiten von der Beleuchtung und dgl . Die mathematischen Grundlagen zu den Verfahren Fuzzy-Clustermg und Fuzzy-Control sind an sich bekannt und werden beispielsweise in den Buchern von H. Kiendl ("Fuzzy Control methodenorientiert", Oldenbourg Verlag, 1997), H.R. Tizhoosh ("Fuzzy Bildverarbeitung, Einfuhrung in Theorie und Praxis"), Springer Verlag, 1998, und L.A. Zadeh ("Fuzzy sets", in: "Information and Control" 8, 1965, 338-353) beschrieben.
Zusatzlich zu Fuzzy-Clustermg und Fuzzy-Control können erfm- dungsgemaß sogenannte neuronale Fuzzy-Systeme implementiert werden, die lernfahig sind und nach entsprechenden Trammgs-
_
Vorgängen Bildszenen verarbeiten können, die nicht vorher gelernte Bilddatensätze beinhalten. Der besondere Vorteil der Fuzzy-Control-Klassifizierung besteht darin, daß anwendungsabhängig eine beliebige Genauigkeit allein durch die Anzahl der berücksichtigten Regeln erzielt werden kann, ohne den bereits erzielten Präzisionsgrad zu verringern. Die Fuzzy-Control- Klassifizierung erlaubt beliebig viele Fallunterscheidungen unter Verwendung der unten erläuterten "WENN-DANN-Regeln" . Außerdem erlauben Fuzzy-Control-Verfahren eine Simulation des visuellen Wahrnehmungsprozesses analog zum Gehirn, wobei die Verarbeitung in verschiedenen Stufen erfolgt, die im Gehirn der Retina, den sogenannten seitlichen Kniehöckern, dem primär visuellen Cortex, höheren Cortex-Ebenen, mit Modulen für Form, Farbe und Bewegung und dgl . zugeordnet werden können. Zwischen diesen Strukturen bzw. beim Fuzzy-Control-Verfahren zwischen den Merkmalsdimensionen besteht ein ständiger Informationsaustausch mit Zugriffen und Rückkopplungen zu den verschiedenen Verarbeitungsstufen .
Gemäß Fig. 4 wird beim Fuzzy-Clustering 41 wie folgt vorgegangen. Nachdem wie oben beschrieben zur Segmentierung des digitalen Bildes einer Videokamera unter Verwendung der Farbtonebene die Fläche um einen Startpixel in Richtung aller angrenzenden Pixel ausgedehnt wird, bis ein vorbestimmter Farbtondifferenz- Schwellwert überschritten ist, und damit ein bestimmter, einem Objekt oder Segment zugeordneter Bildbereich festgelegt ist, werden die Bildpunkte dieses segmentierten und ggf. reduzierten Bildbereiches im RGB-Raum betrachtet. Bei der RGB-Mittlung 42 werden alle zum Bildbereich gehörenden RGB-Werte gemittelt und zu einem Tripel aus RGB-Werten zusammengefaßt. Dieses Tripel mittlerer RGB-Werte besitzt eine bestimmte Position im RGB- Farbraum, der wie folgt in acht Objektfarbklassen (Hyperspharen eingeteilt ist) .
Fig. 7 zeigt beispielhaft den RGB-Farbraum mit den acht Objektfarbklassen Schwarz, Weiß, Rot, Grün, Gelb, Blau, Cyan und Violett. Die Cluster-Zentren finden sich an den Ecken eines Wurfeis (RGB-Wurfel) . Bei dem in Fig. 7 gezeigten RGB-Wurfel gehört z.B. das RGB-Tripel mit den Werten (0/0/0) zu 100 % zur Farbklasse "Schwarz". Dementsprechend wird e Zugehorigkeits- wert ermittelt, der die Zugehörigkeit eines bestimmten Tripels zu einer Farbklasse mit einer %-Angabe beschreibt. Der Zugeho- rigkeitswert μ für das Tripel (0/0/0) betragt beispielsweise für die Klasse "Schwarz" μ=l und für alle anderen Farbklassen μ=0. Die Zugehorigkeitswerte μ werden beim Fuzzy-Clustermg unter der Nebenbedingung ermittelt, daß sich die Zugehorigkeitswerte eines Tripels in Bezug auf alle Farbklassen zu 1 addieren. Die Berücksichtigung einer solchen Nebenbedingung ist jedoch nicht zwingend erforderlich. Die Zugehorigkeitswerte μ werden beispielsweise nach dem sogenannten "Fuzzy-c-Means"- Algoπthmus (FCM) berechnet, der eine unscharfe Klassifizierung erlaubt (s. R.H. Tizhoosh in "Fuzzy-Bildverarbeitung . Einführung in Theorie und Praxis", Springer Verlag 1998, S. 106 ff.). Bei der Cluster-Ermittlung am RGB-Wurfel werden beispielsweise folgende relevante Parameter vorgegeben:
- Anzahl der Klassen: 8
(Schwarz, Weiß, Rot, Grün, Blau, Gelb, Cyan, Violett)
Alternativ ist eine Entwicklung auf elf Farbklassen (gegebenenfalls unter Berücksichtigung des Umfeldes mit Fuzzy-Control- Klassifizierung) möglich (Schwarz, Weiß, Rot, Grün, Blau, Gelb, Violett, Rosa, Orange, Braun, Grau) .
- Anzahl der Merkmale der einzelnen Objekte: 3
(R-, G-, B-Werte)
- Wichtungsexponent (Maß für die Unscharfe) : 2
- Initialisierungsmatπx : Einheitsmatrix
- Abbruchsschwelle: 0.001
Die Nebenbedingung, daß die Summe aller Zugehorigkeitsgrade μ=l ist, kann bei Modifizierung des Fuzzy-Clustermg-Verfahrens (z.B. Ansatz nach dem "Possiblistic c-Means"-Verfahren) fallengelassen werden.
Das FCM-Verfahren ist auf kugelförmige Hyperspharen beschrankt. Es können alternativ andere Fuzzy-Clustermg-Verfahren vorgesehen sein, deren Sphären kompliziertere Formen umfassen. Dies ist von Vorteil, da die menschliche Farbwahrnehmung nicht voll- standig mit kugelförmigen Hyperspharen beschrieben werden kann. Eine weitere Verbesserung der Farbwahrnehmungsangabe wird durch die Implementierung der Fuzzy-Control-Klassifizierung (s.u.) erreicht .
Nach der RGB-Mittlung 42 erfolgt somit die Ermittlung der Zugehorigkeitswerte μ (43). Em RGB-Tripel kann beispielsweise für em konkretes Objekt die folgenden Zugehorigkeitswerte besitzen: Schwarz: 0,1, Weiß: 0,2, Rot: 0,5, Grün: 0,0, Gelb: 0,1, Blau: 0,0, Cyan: 0,0, Violett: 0,1.
Im weiteren Verfahren erfolgt die Ermittlung des maximalen Zu- gehoπgkeitswertes μmax (44). Gemäß einer ersten Ausfuhrungsform der Erfindung wird als Ergebnis für die Objektfarbe des segmentierten Objekts der Name der Farbklasse mit dem größten Zugeho- πgkeitswert μmax angegeben. Dies ist beim o.g. Beispiel der Zu- gehorigkeitswert μ = 0,5, so daß sich die Objektfarbe "Rot" ergibt. Dieses Ergebnis wird dann mit der Datenausgabe 45a zur weiteren Verarbeitung vorbereitet. Alternativ kann vorgesehen sein, daß zusatzlich die Farbklasse mit dem zweitgrößten Zuge- horigkeitsgrad μ ausgeben wird, falls die Differenz zwischen dem ersten (größten) und zweiten (zweitgrößten) Zugehoπgkeits- grad kiemer als em vorbestimmter Schwellwert ist. Die Ergebnisausgabe wurde dann beispielsweise lauten "Rot-Weiß".
Gemäß einer zweiten Ausfuhrungsform der Erfindung schließt sich an das Fuzzy-Clustermg die weitere Klassifizierung durch Fuzzy-Control 46 an, wie es unten im einzelnen erläutert wird. Die hier beschriebene Klassen- oder Clusterzuordnung erfolgt unter dem beispielhaften Bezug auf den RGB-Raum. Die Wahl des zum Fuzzy-Clustermg herangezogenen Farbraumes ist anwendungsabhan- gig modifizierbar. Entsprechendes gilt für die genaue Lage der Cluster-Zentren (Zentren der Hyperspharen oder Farbklassen) im Farbraum. Es ist vorzugsweise vorgesehen, die Lage der Cluster- Zentren auf der Grundlage von Expertenwissen vorzugeben oder anhand von Beispielen zu bestimmen. Ferner muß die exakte Form der Hyperspharen im Farbraum anwendungsabhangig gewählt werden. Es ist möglich, durch Hinzαnahme weiterer Dimensionen bzw. durch Verschieben der Cluster-Zentren und durch Verwendung verschiedener Clusteralgorithmen im Raum der Hyperspharen eine Anpassung des Fuzzy-Clustermg an die konkrete Wahrnehmungsanwendung vorzunehmen. Dabei kann auch iterativ anhand von Bezugsobjekten mit definierten Farben vorgegangen werden. Die Zahl der Hyperspharen laßt sich gegenüber dem Beispielwert 8 erhohen oder erniedrigen.
Bei der folgenden Fuzzy-Control-Klassifizierung 46 werden wie beim Fuzzy-Clustermg 41 αie Farbwerte des auswählten oder segmentierten Objekts betracntet. Im Rahmen der Schritte 47a, 47b, 47c ... werden Zusatzparameter ermittelt, d e bei der spateren Regelung oder Zuordnung von Farb-Clustern berücksichtigt werden sollen. Zu diesen Zusatzparametern zahlen beispielsweise die Umgebungsfarben (47a) (hierzu wird das gesamte Bild segmentiert) , die Beleuchtung (47b), Positionsparameter (47c), zusatzliches Expertenwissen (47d) und dgl. Zu den Beleuchtungsparametern (47b) zahlen beispielsweise die Beleuchtungsart (Spotbeleuchtung, homogene Beleuchtung, mehrere Lichtquellen o. dgl.), Farbwerte der Beleuchtung und die Beleuchtungsrichtung. Die Positionsparameter können sich auf die geometrische Anordnung der Objekte oder Abs andsmformationen oder dgl. beziehen.
Das zusätzliche Expertenwissen kann beispielsweise aus der Verteilung der Farbwerte extrahiert oder über zusätzliche Gerate erfaßt werden und betrifft z.B. Oberflacheneigenschaften der betrachteten Objekt (Rauheit, Glanz) oder dgl.. Nach der Ermittlung der Zusatzparameter (47) folgt die eigentliche Regelung/ Klassifizierung des Fuzzy-Control. Bei der Fuzzy-Inferenz 48 werden die gewünschten Farbmerkmale eines segmentierten Objekts mit Hilfe von "WENN-DANN"-Regeln (Entscheidungsregeln) eines Fuzzy-Reglers berechnet.
Die Implementierung der "WENN-DANN-Regeln" erfolgt beispielsweise gemäß folgendem Schema (sog. Fuzzy-In erenz ) :
NENN Farbwerte des ausgewählten Objektes = (xι/x2/χ3) und Kontrastbeziehungen zum Umfeld = ... (z.B. Farbwerte des ersten angrenzenden Objektes
(yι/y2/y3 ) und Werte der Beleuchtung = ... und
DANN wird das ausgewählte Objekt mit der Farbwahrnehmung
(z.B. Blau, Hell, gesattigt usw.) wahrgenommen und besitzt das Objekt einen Abstand von x Metern und ist y Zentimeter hoch und z breit, usw.
Entscheidungsregeln, die ausschließlich auf die L,a,b-Werte des Objektes (Center) und seines Umfeldes bezogen sind, können beispielsweise diese Form besitzen (zur Erläuterung des Term- Begπffes siehe unten) :
WENN L- -Umfeld = = Term 1 und a- -Umfeld = = Term 2 und b- -Umfeld = = Term 5 und L- -Center = = Term 4 und a- -Center = = Term 5
und b-Center = Term 8
Dann Weiss = Term 1
Bei derartigen Schemata können alle Informationen bekannter Wahrnehmungsmodelle und auch zeitliche Objektanderungen berücksichtigt werden.
Zur Ermittlung des Expertenwissens bzw. der Entscheidungsregeln (Schritt 47d) können Testreihen mit normalsichtigen Versuchspersonen durchgeführt werden. Das Expertenwissen kann in Form von Fuzzy-Regeln (ggf. iterativ) zur Verwendung in der Fuzzy-Inferenz 48 implementiert werden. Im folgenden wird die Fuzzy-Inferenz 48 mit einer Vielzahl von Entseheidungsregeln auf der Grundlage der zuvor bestimmten Objekt- und Umgebungsfarben (Schritt 47a) im einzelnen erläutert. Dabei wird von einer Bildauswertung mit Segmentierung und Segmentreduzierung und direkter Anwendung des Fuzzy-Control-Verfahrens (ohne das Fuzzy-Clustermg-Verfahren) ausgegangen.
Bei der Fuzzy-Inferenz 48 werαen die vorab ermittelten (gemessenen) Farbparameterwerte des reduzierten Segments (zum Beispiel Segment 62 in Figur 6) und des Umfeldes (siehe Bezugszeichen 64 in Figur 6) mit einer Vielzahl vorab ermittelter und gespeicherter Entseheidungsregeln ausgewertet. Die Entseheidungsregeln bilden einen Regelsatz, der wie folgt durch Versuchsreihen mit menschlichen Beobachtern erzeugt worden ist.
Die Ermittlung der Entseheidungsregeln erfolgt durch Versuchsreihen, bei denen Versuchspersonen auf einem Monitor synthetische Farbbilder mit einem mittleren Segment (z. B. 62 in Figur 6) und einem Umfeld (64 in Fig. 6) mit verschiedenen Farbmerkmalen (voreingestellte Farbparameterwerte, z. B. L,a,b-Werte) betrachten und jeweils die subjektive Farbwahrnehmung angeben. Die Farbmerkmale des Bildes und die Angabe der Versuchsperson werden als Eingangsgroßen bzw. Ausgangsgroßen auf der Basis so-
genannter Eingangs- bzw. Ausgangs-Terme für die Entseheidungsregeln verwendet. Em Emgangs-Term ist eine Fuzzy-Menge, deren Elemente aus Farbparameterwerten und Zugehoπgkeitswerten bestehen, die jeweils die Zugehörigkeit der Farbparameterwerte zum Term charakterisieren. Em Ausgangs-Term ist eine Fuzzy- Menge, deren Elemente Farbwahrnehmungswerte (z.B. Rotanteil in %) und entsprechende Zugehorigkeitswerte in Bezug auf den Term umfassen.
Eine Gruppe von Entseheidungsregeln ist in Figur 8 illustriert. Figur 8 zeigt eine graphische Darstellung der Zuordnung von Ausgangsgroßen entsprechend den in der rechten Spalte angegebenen Farbwahrnehmungen zu bestimmten Kombinationen von Eingangsgroßen. Die Eingangsgroßen sind für das Segment in der Mitte (Center) für den L-Wert der Term 4 und für die a- (Abszisse) - Werte e Term zwischen Term 4 und Term 9 und für die b- Ordmate-Werte em Wert zwischen Term 4 und Term 8. Für das Umfeld gelten als Eingangsgrößen für a: Term 5, für b: Term 7 und für L: Term 3. Je nach Einstellung der a- und b-Werte des Segments gibt mindestens e ne Versuchsperson ihre Farbwahrnehmung an. Beispielsweise wird für a = 6 und b = 7 für das Segment in der Mitte „braun" wahrgenommen, wahrend sich für a = 9 und b = 4 eine Farbwahrnehmung „rosa" ergibt. Nach diesem Schema werden sämtliche, für eine konkrete Anwendung in Frage kommenden Ein- gangs-Term-Kombmationen (Reizkombination) für Versuchszwecke am Monitor dargestellt und die entsprechenden Entseheidungsregeln als Implikationen entsprechend dem obigen Schema aufgenommen und gespeichert. Jede vorgegebene Reizkombination fuhrt für ede Farbwahrnehmungsklasse zu jeweils einer neuen Entschei- dungsregel. Beim dargestellten Beispiel ergeben sich für jede Reizkombination 11 Entseheidungsregeln, deren Konklusionen für die wahrgenommene Farbwahrnehmungsklasse beispielsweise (Ausgangs-) Term 1 und für alle nicht wahrgenommenen Farbwahrneh- mungsklassen (Ausgangs- ) Term 0 lauten. Entsprechendes ist auch
für andere Bildmerkmale (Kontrastbeziehungen oder dergleichen) möglich .
Ein für eine zuverlässige Farberkennung ausreichender Regelsatz kann rund 10.000 bis 100.000 oder auch mehr einzelne Entseheidungsregeln umfassen, die hier jedoch nicht im einzelnen aufgeführt werden können. Jede Entscheidungsregel ist entsprechend dem oben genannten Schema gebildet und umfaßt im einfachsten Fall eine Implikation mit zwei UND-verknupften Eingangsgroßen. Die Eingangsgroßen umfassen beispielsweise die Farbmerkmale des (reduzierten) Segments und des Umfeldes mit den L-, a- und b- Variablen im oben genannten L*a*b*-Farbraum. Dabei können die Helligkeits- (L) bzw. Färb- (a-, b-) Merkmale durch Fuzzy- Mengen (Zugehorigkeitsverteilungen, Emgangs-Terme) beschrieben werden .
Im Rahmen der Fuzzy-Inferenz 48 erfolgt nach der Messung (ggf. mit Klassifizierung) der Farbmerkmale (Farbparameterwerte) des Segments und des Umfeldes zunächst eine Emgangs-Term- Zuordnung. Der Wertebereich jedes Farbparameterwertes wird durch eine Gruppe von Emgangs-Termen überdeckt, die sich zumindest teilweise überlappen können. Die Zugehorigkeitsfunktio- nen der jeweiligen Emgangs-Terme besitzen beispielsweise die Gestalt einer Dreiecksfunktion. Für einen konkret gemessenen Farbparameterwert ergeben sich bei einfach überlappenden Termen zwei verschiedene Zugehorigkeitswerte zu zwei benachbarten Emgangs-Termen .
Es wird beispielsweise em Farbbild mit einem mittig angeordneten Segment und einem farbigen Umfeld betrachtet. Für die L- Emgangsgroßen werden sechs Emgangs-Terme und für die a- und b-Emgangsgroßen jeweils elf Emgangs-Terme ( Fuzzy-Mengen) verwendet. Das Ziel der Fuzzy-Inferenz 48 besteht nun darin, dem Segment einen Zugehorigkeitswert zu einer bestimmten (Färb-) wahrnehmungsklasse entsprechend der menschlichen Farbwahrneh-
mung zuzuordnen. Diese Farbwahrnehmungsklasse wird unter Anwendung der unten erläuterten Operatoren aus elf möglichen Ausgangsgroßen ausgewählt, für die jeweils zwei Ausgangs-Terme verwendet werden. Die Zahl der verwendeten Terme kann anwen- dungsabhangig verändert werden.
Bei einem einfachen Segment-Umfeld-Reiz werden insgesamt sechs Eingangsgroßen (drei Merkmale für das Segment und drei Merkmale für das Umfeld) ausgewertet. Beim folgenden Beispiel werden jedoch aus Ubersichtlichkeitsgrunden nur zwei Eingangsgrößen (a, b) und eine Ausgangsgroße („weiss") betrachtet. Eine Entscheidungsregel soll z.B. heißen:
„ WENN a = Term 1 und b = Term 2, DANN „weiss" = Term 0". Der a-Wert (z.B.: 20) hat die Zugehörigkeit μ (a = 20) = 0.5 zum Emgangs-Term 1, wahrend der b-Wert (z.B.: 10) eine Zugehörigkeit μ (b = 10) = 0.3 zum Emgangs-Term 2 besitzt. Bei diesem Beispiel werden die Zugehörigkeiten zu weiteren Termen der Einfachheit halber nicht betrachtet.
Zur Auswertung der Entscheidungsregel erfolgt zunächst em Ag- gregationsschritt auf der Basis eines Minimum-Operators. Das „ und" wird als Minimum interpretiert, das bei der beispielhaft angegebenen Entscheidungsregel mit Mm (0.5 und 0.3) = 0.3 gegeben ist. Das Ergebnis des Aggregationsschrittes ist somit eine reine Zahl .
Es schließt sich der Implikationsschπtt an, der wiederum auf der Basis eines Minimum-Operators erfolgt. Die Ausgangsgroße „weiss" hat zwei überlappende Fuzzy-Mengen (Ausgangs-Term 0 und 1) . Der Minimum-Operator bildet aus den Elementen des Termes 0 und dem Erfullungsgrad der Regelpramisse (0.3) jeweils das Minimum (anschaulich bedeutet dies, daß der Term 0 auf der Hohe 0.3 abgeschnitten wird). Das Ergebnis dieses Schrittes ist eine Fuzzy-Menge, die insbesondere em Element einer Farbwahrneh-
mungs-Ausgangsgroße und einen Zugehorigkeitswert entsprechend dem Minimum-Operator des Implikationsschπttes umfaßt.
Auf diese Weise (Aggregations- und Implikationsschritte) werden sämtliche Entseheidungsregeln durchgearbeitet, so daß sich eine Vielzahl von Fuzzy-Mengen entsprechend der Anzahl von Entseheidungsregeln ergeben. Im weiteren Verlauf der Fuzzy-Inferenz 48 werden diese Fuzzy-Mengen noch weiterverrechnet.
Hierzu erfolgt zunächst em Akkumulationsschritt mit einem Maximum-Operator. Bei diesem Schritt wird aus allen Fuzzy-Mengen, die aus den Implikationsschπtten gefolgt sind, eine neue Vereinigungsmenge gebildet, in dem das Maximum der Einzelmengen verwendet wird. Das Ergebnis ist wiederum eine Fuzzy-Menge.
Schließlich folgt zur Ermittlung eines zahlenmäßigen Ergebnisses, z.B. eines Zugehoπgkeitsgrades zwischen 0 und 1 für die Ausgangsgroße „weiss" em Defuzzyflzierungs-Schπtt, bei dem nach der Schwerpunktmethode der Schwerpunkt der resultierenden Fuzzy-Menge gebildet wird. Die Schwerpunktmethode wird beispielsweise von H. R. Tizhoosh et al . (siehe oben) beschrieben.
Zur Ergebnisausgabe wird die Ausgangsgroße mit dem größten Zu- gehorigkeitsgrad als Ergebnis angegeben, z.B. „grün". Falls die Zugehorigkeitsgrade nahe beieinander liegen, kann auch vorgesehen sein, daß als Ausgangsgroße zwei Farbwert mit dem größten und dem zweitgrößten Zugehoπgkeitsgrad angegeben werden, z.B. „grun-gelb" . Das Ergebnis der Fuzzy-In erenz 48 wird bei der Datenausgabe 45b zur weiteren Verarbeitung vorbereitet.
Es können auch andere Operatoren und Defuzzyflzierungsmethoden verwendet werden. Die Regelsatze müssen dann ggf. entsprechend angepaßt werden. Die beschriebene Methode besitzt jedoch den Vorteil einer hohen Robustheit und Leistungsfähigkeit. Die verwendete Fuzzy-Inferenz ist die sogenannte Mamdani-Inferenz . Er-
fmsungsgemaß können auch mit anderen Fuzzy-Inferenzen und Defuzzyflzierungsmethoden Farbwahrnehmungen simuliert werden.
Der in Fig. 4 angegebene Schritt 49 bezeichnet eine weitere Modifizierung des erfmdungsgemaßen Verfahrens durch die Kombination der Fuzzy-Methoden mit neuronalen Netzwerken (neuronale Fuzzy-Systeme) , wodurch eine Lernfähigkeit des Systems erzielt wird. Es kann vorgesehen sein, daß das neuronale Netz zusätzlich unmittelbar nach der Datenerfassung (Bilderfassung) oder nach der Segmentierung eingebaut wird, um gelernte und nicht gelernte Biddatensatze unterscheiden zu können.
Die Ergebnisausgabe 45b bzw. 50 (s. Fig. 1) erfolgt anwendungs- abhangig m Datenform, als Anzeige oder als Ansage, oder mit mechanischen, durch den Nutzer fühlbaren Mitteln. Im medizinischen Bereich erfolgt vorzugsweise der Einsatz eines Text- Sprach-Konverters, um die ermittelte Farbwahrnehmung mit einem Kopfhörer oder Lautsprecher hörbar zu machen, so daß die betroffene Person Informationen über die Farbe, Große, Position und/oder Entfernung der im Gesichtsfeld befindlichen Objekte erhalt. Die Benennung von Farben erfolgt vorzugsweise zu Klassen von Farbnamen, die in den meisten Kulturen verwendet werden und z.B. von B. Berlin, P. Kay et al. ("Basic Color Terms . : Their Universality and Evolution", Berkeley, CA; Umversity of California Press) und I.C. McManus ( "Half-a-Million Basic Color Words - Berlin and Kay and the Usage of Color Words in Litera- ture and Science", Perception 1997, VL 26 (N3), 367-370) beschrieben sind. Die Ergebnisausgabe kann auch mit einer mechanische wirksamen Orientierungshilfe implementiert werden, wie sie in "Bild der Wissenschaft" (8/1998, S. 10) beschrieben ist.
Eine erfmdungsgemaße Vorrichtung umfaßt gemäß der m Fig. 9 dargestellten Ausfuhrungsform eine Datenauf ahmee richtung 1 (z.B. Kamera, Scanner oder spektroskopische Anordnung), eine Datenerfassungs-Einheit 2, in der das RGB-Bild bestimmt w rd,
eine Transformations- und Recheneinheit 3, in der die Transformation des RGB-Bildes in einem geeigneten Zielfarbraum erfolgt, eine Segmentierungs-Einheit 4 zur Ermittlung des Bildbereiches, für den nachfolgend in der Fuzzy-Einheit 5 die Farbwahrnehmung ermittelt werden soll. Zur Ergebnisausgabe ist die Fuzzy- Einheit mit einer Datenausgabe 6 (z.B. in Form eines Displays, Druckers und/oder Audiogerätes) verbunden. Die Komponenten 2, 3, 4 und 5 der erfindungsgemäßen Vorrichtung sind vorzugsweise in einen als Mikrocomputer integriert ausgeführt. Die Transformations- und Recheneinheit 3 ist bei technischen-industriellen Anwendungen vorzugsweise mit einer Anzeigeeinheit 3a verbunden, die zur Darstellung des Bildes der aufgenommenen Szene in der Farbtonebene eingerichtet ist. Die Anzeigeeinheit 3a ist entweder ein Zusatzmonitor oder in die Ausgabeeinheit 6 integriert.
Das erfindungsgemäße Farbwahrnehmungssystem kann wie folgt modifiziert werden. Es kann vorgesehen sein, beim Fuzzy-Control die einzelnen Pixel nicht als Tripel, sondern allgemein als Merkmalsvektoren zu betrachten, die neben den drei Farbparametern weitere, höhere Dimensionen, wie z.B. Wahrnehmungsparameter (z.B. Glanz, Oberflächeneigenschaften und dgl.) enthalten. Diese Fähigkeit zur Verallgemeinerung bzw. zur Einführung weiterer Parameter stellt einen besonderen Vorteil der Erfindung dar. Herkömmliche Analysen von Bildszenen in angepaßten Wahrnehmungsräumen sind häufig an einen bestimmten Effekt bei der Bildwahrnehmung angepaßt und nur beschränkt modifizierbar. Erfindungsgemäß kann hingegen jeder neue Wahrnehmungseffekt durch Erhöhung der Anzahl der "WENN-DANN-Regeln" , der linguistischen Terme (Wahrnehmungsbenennungen) und/oder der Parameterzahl oder verschiedene Fuzzy-Regelungsverfahren in den beim Fuzzy-Control eingeführten Vektoren berücksichtigt werden, ohne daß die ursprünglichen Parameter verloren gehen und die bis dahin erreichte Präzision abnimmt.
Wegen der bevorzugten Anwendung als Sehhilfe wurde oben bei der Bildaufnahmeeinrichtung auf eine farbige Bildaufnahme auf der Basis von RGB-Arrays Bezug genommen. Die menschliche Retina enthält drei Zapfenarten mit jeweils breitbandigen, sich überlappenden Spektren. Bei nicht-medizinischen Anwendungen kann jedoch ein Interesse bestehen, eine höhere Spektral-Auflösung einzuführen, so daß statt einer RGB-Bildaufnahme eine Bildaufnahme mit Spektren-Arrays mit einer größeren Anzahl spektraler Empfindlichkeitsmaxima durchgeführt wird. Ferner kann statt der zweidimensionalen Bildaufnahme eine dreidimensionale Bildabtastung oder analog zur menschlichen Wahrnehmung die Bildaufnahme mit zwei Kameras unterschiedlicher Positionen (Paralaxe) vorgesehen sein. Dadurch wird bei der Objekterfassung die Tiefeninformation berücksichtigt. Bei der sprachkonvertierten Ergebnisausgabe können Zusatzinformationen zu den betrachteten Objekten, wie z.B. "links", "rechts", "oben", "unten", "Mitte", oder Informationen zur Beleuchtung (Richtung etc.), zu Objektmaßen, Entfernungen oder Flächenanteilen von Objekten ausgegeben werden .
Die erfindungsgemäße Farberkennung kann mit einer Schrifterkennung kombiniert werden, z.B. unter Verwendung des Programms "Corel OCR-Trace". In diesem Fall erfolgt neben der Farbwahr- nehmungsausgabe auch eine Sprachausgabe erfaßter Worte in einer Bildszene (z.B. Schilder o. dgl.).