EP3948576A1

EP3948576A1 - Datenbankübergreifender index auf einem verteilten datenbanksystem

Info

Publication number: EP3948576A1
Application number: EP20716739.6A
Authority: EP
Inventors: Andreas Wilke; Ilya Komarov; Peter Palm; Manfred Paeschke
Original assignee: Bundesdruckerei GmbH
Current assignee: Bundesdruckerei GmbH
Priority date: 2019-04-04
Filing date: 2020-03-31
Publication date: 2022-02-09
Also published as: DE102019108856A1; WO2020201248A1

Abstract

Die Erfindung betrifft ein computerimplementiertes Verfahren zum Implementieren eines datenbankübergreifenden Index (112, 222) auf einem verteilten Datenbanksystem (170), welches eine Mehrzahl von eigenständigen Einzeldatenbanken (104, 204) umfasst. Die Einzeldatenbanken sind über ein Netzwerk (180) kommunikativ miteinander verbunden. Das Verfahren umfasst ein Anwenden einer Datenverarbeitungsfunktion einer Quelldatenbank (104) auf einen zusätzlichen Datensatz (108), wobei die Datenverarbeitungsfunktion zumindest eine Indexierung des zusätzlichen Datensatzes zum Speichern in der Quelldatenbank umfasst. Ferner wird ein aus dem Anwenden der Datenverarbeitungsfunktion resultierender Ergänzungsdatensatzes (130) erstellt, welcher die in dem Index der Quelldatenbank vorgenommenen Ergänzungen umfasst und zum Ergänzen zumindest eines weiteren Index (212) zumindest einer weiteren Einzeldatenbank des verteilten Datenbanksystems als Empfangsdatenbank (204) dient. Der erstellte Ergänzungsdatensatzes wird über das Netzwerk an die zweite Einzeldatenbank zur Integration in den weiteren Index der Empfangsdatenbank (204) gesendet.

Description

Datenbankübergreifender Index auf einem verteilten Datenbanksystem

B e s c h r e i b u n g

Die Erfindung betrifft ein Verfahren, ein Quellcomputersystem und ein verteiltes Da- tenbanksystem zum Implementieren eines datenbankübergreifenden Index auf ei- nem verteilten Datenbanksystem. Im Zuge der zunehmenden Digitalisierung, Automatisierung und Vernetzung in allen Lebens- und Arbeitsbereichen entstehen komplexe verteilte Systeme, deren techni- sches Zusammenspiel neue technische Herausforderungen aufwirft. So umfassen entsprechende verteilte Systeme im Allgemeinen beispielsweise keinen gemeinsa- men Speicher, was ein Ausführen von Datenverarbeitungsfunktionen erschwert. Der Erfindung liegt die Aufgabe zugrunde, ein verbessertes Verfahren zum Imple- mentieren eines Index auf einem verteilten Datenbanksystem zu schaffen.

Die der Erfindung zugrundeliegende Aufgabe wird jeweils mit den Merkmalen der unabhängigen Patentansprüche gelöst. Ausführungsformen der Erfindung sind in den abhängigen Patentansprüchen angegeben.

Ausführungsformen umfassen ein computerimplementiertes Verfahren zum Imple- mentieren eines datenbankübergreifenden Index auf einem verteilten Datenbank- system, welches eine Mehrzahl von eigenständigen Einzeldatenbanken umfasst, wobei die Einzeldatenbanken über ein Netzwerk kommunikativ miteinander verbun- den sind,

wobei die Einzeldatenbanken jeweils von einem Multi-Modell-Datenbankma- nagementsystem verwaltet werden, wobei die Einzeldatenbanken jeweils eine Mehrzahl datenbankindividueller Datensätze umfassen, welche in einem dokumen- tenorientierten ersten Datenmodell der jeweiligen Einzeldatenbank gespeichert sind, wobei die gespeicherten Datensätze jeweils ein oder mehreren Feldwerte umfas- sen, wobei die einzelnen Feldwerte der gespeicherten Datensätze jeweils in einem Feld gespeichert sind,

wobei die Einzeldatenbanken ferner jeweils einen durchsuchbaren ersten In- dex umfassen, welcher in einem zweiten Datenmodell der jeweiligen Einzeldaten- bank gespeichert ist, wobei der Index der jeweiligen Einzeldatenbank eine Mehrzahl von aus den Feldwerten der in dem dokumentenorientierten Datenmodell der ent- sprechenden Einzeldatenbank gespeicherten Datensätze erzeugten Token umfasst, wobei die Token in dem Index jeweils mit einem oder mehreren Zeigern auf ein oder mehrere der in dem dokumentenorientierten Datenmodell der entsprechenden Ein- zeldatenbank gespeicherten Datensätze verknüpft ist, aus deren Feldwerten das entsprechende Token erzeugt wurde,

wobei das Verfahren umfasst:

• Empfangen eines zusätzlichen Datensatzes durch eine erste Einzeldatenbank als Quelldatenbank zum Ergänzen von Datensätze der Quelldatenbank, • Speichern des zusätzlichen Datensatzes, welcher ein oder mehrere zusätzli- che Feldwerte umfasst, durch ein erstes Multi-Modell-Datenbankmanagement- system der Quelldatenbank in einem dokumentenorientierten ersten Datenmo- dell der Quelldatenbank,

• Anwenden einer Datenverarbeitungsfunktion der Quelldatenbank auf den zu- sätzlichen Datensatz, wobei die Datenverarbeitungsfunktion zumindest eine Indexierung des zusätzlichen Datensatzes zum Speichern in einem zweiten Datenmodell der Quelldatenbank umfasst, wobei die Indexierung umfasst: o Erzeugen von ein oder mehreren zusätzlichen Token aus den zusätzlichen Feldwerten durch die Quelldatenbank,

o Ergänzen des Index der Quelldatenbank durch das erste Multi-Modell-Da- tenbankmanagementsystem unter Verwendung der zusätzlichen Token und eines Zeigers auf den zusätzlichen in dem dokumentenorientierten Datenmodell der Quelldatenbank gespeicherten Datensatz,

• Erstellen eines aus dem Anwenden der Datenverarbeitungsfunktion resultie- renden Ergänzungsdatensatzes, welcher die in dem Index der Quelldatenbank vorgenommenen Ergänzungen umfasst, zum Ergänzen zumindest eines zwei- ten Index zumindest einer zweiten Einzeldatenbank des verteilten Datenbank- systems als Empfangsdatenbank,

• Senden des Ergänzungsdatensatzes über das Netzwerk an die zweite Einzel- datenbank zur Integration in den zweiten Index der Empfangsdatenbank.

Ausführungsformen können den Vorteil haben, dass durch das Erstellen und Sen- den des Ergänzungsdatensatzes der Index der Empfangsdatenbank an die Ände- rungen des Indexes der Quelldatenbank angepasst werden kann. Obwohl es sich also um ein verteiltes Datenbanksystem mit einer Mehrzahl eigenständiger Einzel- datenbanken handelt, kann so ein datenbankübergreifender Index implementiert werden. Sind alle Einzeldatenbanken dazu konfiguriert bei einem Empfang eines zusätzlichen Datensatzes als Quelldatenbank zu fungieren, kann so ein einheitlicher datenbankübergreifenden Index des verteilten Datenbanksystems bereitgestellt wer- den. Sind alle Einzeldatenbanken dazu konfiguriert als Empfangsdatenbanken ent- sprechende Ergänzungsdatensätze zu empfangen, kann auf allen Einzeldatenbanken ein identischer datenbankübergreifender Index des verteilten Datenbanksystems bereitgestellt werden. Dies erlaubt es lokal Datenverarbeitungs- funktionen unter Berücksichtigung aller in dem verteilten Datenbanksystem zur Ver- fügung gestellten Daten auszuführen. Zugleich erhalten aber nicht alle Einzeldaten- banken Zugriff auf alle vorliegenden Daten in dem verteilten Datenbanksystem zur Verfügung gestellten Daten. Vielmehr erfolgt der Zugriff lediglich auf den datenbank- übergreifenden Index. Der Index umfasst dabei aufgrund der Tokenisierung nicht die vollen Kontextinformationen, welche die zugrundeliegenden Datensätze umfas- sen. Diese vollen Kontextinformationen gehen jedoch nicht verloren, sondern ste- hen den Einzeldatenbanken jeweils individuell zur Verfügung. Durch den reduzier- ten sowie komprimierten Informationsgehalt des Index werden einerseits die Daten- mengen, welche zwischen den Einzeldatenbanken zum Implementieren des daten- bankübergreifenden Index auszutauschen sind, reduziert und zugleich werden die Daten der Datensätze geschützt. Dieser Schutz umfasst, dass jeweils nur die indivi- duelle eigenständigen Einzeldatenbanken Zugriff auf die in ihrem jeweiligen ersten Datenmodell gespeicherten Datensätze besitzen. Nur diese jeweilige Einzeldaten- bank hat mithin Zugang zum vollen Informationsgehalt der entsprechenden Datens- ätze. Die weiteren Einzeldatenbanken haben jedoch aufgrund der Zeiger Kenntnis davon, wo Datensätze gespeichert sind, aus welchen die Token de Index erzeugt wurden. Mithin können sie im Bedarfsfall eine Kopie der entsprechenden Datens- ätze anfordern. Die Entscheidung über eine Freigabe eines Datensatzes, d.h. ein Bereitstellen einer Kopie desselben, verbleibt jedoch jeweils bei der entsprechenden Einzeldatenbank, in derem ersten Datenmodell der Datensatz gespeichert ist. Die Verfügungsgewalt liegt somit jeweils bei der Einzeldatenbank. Daher sind die Ein- zeldatenbänke auch in dem Sinne eigenständig, dass jede der Einzeldatenbänke in ihrem ersten Datenmodell jeweils eine eigenständige Mehrzahl von Datensätzen umfasst, welche sich gegebenenfalls erheblich oder sogar vollständig von Datensät- zen unterscheiden kann, welche in den ersten Datenmodellen anderer Einzeldaten- bänke gespeichert sind. Insbesondere schützt der beschränkte Zugriff mithin vor un- berechtigten Zugriffen auf die daten durch Dritte. Ausführungsformen können den Vorteil haben, dass die Datenverarbeitungsfunktio- nen jeweils einzeldatenbank-individuell ausgeführt werden. So indexiert beispiels- weise jede der Einzeldatenbänke jeweils eigenständig Datensätze, welche sie emp- fängt. Im Ergebnis können die Datensätze somit parallel abgearbeitet werden. Somit kann das Verarbeiten der Daten parallelisiert und damit beschleunigt werden.

Ausführungsformen basieren somit auf einem verteilten System bzw. Datenbank- system, welches eine Mehrzahl von Knoten bzw. Computern umfasst, welche je- weils eine Einzeldatenbank zur Verfügung stellen und über Kommunikationsschnitt- stellen miteinander kommunizieren können. Nach Ausführungsformen wird auf dem verteilten System eine Software, d.h. die Datenverarbeitungsfunktionen, ausgeführt, welche eine Mehrzahl von Funktionalitäten, wie etwa Algorithmen, Formeln, Mo- delle, bereitstellen kann.

Nach Ausführungsformen kann sich die Datenverarbeitungsfunktion einem Indexie- ren empfangener Datensätze und einer Erstellung bzw. Verwaltung eines darauf ba- sierenden Index erschöpfen. Nach weiteren Ausführungsformen kann die Datenver- arbeitungsfunktion aber noch weitere Funktionalitäten umfassen, deren Anwendung sich in der resultierenden Struktur des Index wiederfindet. Somit lassen sich die von dem Index bereitgestellten Daten für vielfältige Zwecke optimieren.

Bei der Software kann es sich beispielsweise um eine Software handeln, welche auf den einzelnen Knoten des Systems, d.h. den Einzeldatenbänken, unabhängig von den anderen Knoten des verteilten Systems ausgeführt wird. Das verteilte System bezieht sich in diesem Fall darauf, dass jeder der Knoten des verteilten Systems je- weils eine vollständige Kopie des Index umfasst. Dabei indexiert der resultierende Index alle Einzeldatenbanken des verteilten Systems, d.h. es kann sich bei dem In- dex um einen kombinierten Gesamtindex handeln, welcher alle Teilindexe der ein- zelnen Konten des verteilten Systems umfasst.

Eine verteilte Anwendung bezeichnet ein komplexes Anwendungsprogramm, wel- che auf einem verteilten System, also auf mehreren Computern, abläuft und unter diesen Informationen austauscht. Beispielsweise erfolgt eine Verteilung der entspre- chenden Anwendung durch horizontale Schnitte im Softwareschichtenmodell, so dass die Aufgabe der Gesamtsoftware auf einzelne Softwarekomponenten in Form der einzelnen Schnitte aufgeteilt werden kann. Zur Erfüllung der Gesamtaufgabe ist in diesem Fall eine Mitwirkung aller Komponenten der Anwendung erforderlich, wel- che zu diesem Zweck untereinander kommunizieren. Für einen Client ist die ver- teilte Anwendung zumeist transparent, d.h. die verteilte Anwendung erscheint als eine einheitliche Anwendung.

Nach Ausführungsformen führt jede Einzeldatenbank eine Datenverarbeitungsfunk- tion aus. Hierbei kann es sich bei allen Einzeldatenbanken um die gleiche Datenver- arbeitungsfunktion handeln, welche mithin parallelisiert wird, oder es kann sich um einzeldatenbank-individuelle Datenverarbeitungsfunktionen handeln, deren Ausfüh- rung sich ergänzt. Beispielsweise kann sich die Indexerstellung unterschiedlicher Einzeldatenbanken dahingehend unterscheiden, welche Granularität die in dem In- dex ergänzten Token aufweisen. Bei Sensormesswerten können beispielweise die exakten Messwerte in dem Index ergänzt werden, es kann ein gerundeter Messwert oder es können Zuordnungen zu einem Werteintervall ergänzt werden. Flandelt es sich um Werte unterschiedlicher Sensoren, können an diese unterschiedliche Anfor- derungen bestehen, welche mittels einzeldatenbank-individueller Datenverarbei- tungsfunktionen implementiert werden können.

Unter einem verteilten System wird eine Mehrzahl interagierender Prozesse bzw. eine Mehrzahl von Prozesse ausführenden interagierenden Prozessoren verstan- den, welche über keinen gemeinsamen Speicher verfügen, sondern vielmehr über Nachrichten miteinander kommunizieren. Ein verteiltes System ermöglicht somit ei- nen Zusammenschluss unabhängiger Computer bzw. Einzeldatenbanken, welche sich für den jeweiligen Nutzer jeweils als ein einziges System präsentieren. Im vor- liegenden Fall sieht der jeweilige Nutzer beispielsweise einen datenbankübergrei- fenden Index. Erst wenn auf Datensätze direkt zugegriffen werden soll, welche sich in einem Datenmodell einer anderen Einzeldatenbank gespeichert sind, kann für den Nutzer ersichtlich werden, dass es sich nicht um ein einziges System sondern vielmehr tatsächlich um ein verteiltes System handelt.

Ausführungsformen können den Vorteil haben, dass auf jedem der Knoten bzw. auf jeder der Einzeldatenbänke jeweils die Funktionalität des vollständigen Index ge- nutzt werden kann, ohne dass die entsprechenden Koten alle Datensätze des ge- samten verteilten Datenbanksystems umfassen. Dadurch kann auf den jeweiligen Knoten ein Overhead für den Betrieb und die Speicherung der Datensätze restli- chen Knoten bzw. Einzeldatenbänke vermieden werden.

Ausführungsformen können den Vorteil haben, dass an keinem Ort eine vollstän- dige zentrale Speicherung aller Daten bzw. ein Zusammenführen aller Datenbanken notwendig ist, damit auf die Gesamtheit der Informationen aller Indexe aller Daten- banken zugegriffen werden kann und diese ausgewertet werden können. Somit lässt sich vermeiden, dass von einer zentralen Instanz alle Daten gesammelt wer- den, welche damit Zugriff auf alle Daten gelangen könnte. Insbesondere lassen sich damit verbundene Sicherheitsrisiken vermeiden bzw. minimieren.

Ausführungsformen können den Vorteil haben, dass Daten, welche von einem Kno- ten in dem verteilten Netzwerk erfasst werden, direkt mit einem Besitzer bzw. einer Identität verknüpft werden. So werden die empfangenen Datensätze beispielsweise jeweils direkt der empfangenen Einzeldatenbank oder einem Nutzer der entspre- chenden Einzeldatenbank als Eigner bzw. Besitzer zugeordnet.

Ausführungsformen können den Vorteil haben, dass sie es ermöglichen gezielt Funktionalitäten einer Softwarekomponente auf einzelnen Netzwerkknoten in einem verteilten System zu betreiben. Damit kann der Speicher- und Rechenbedarf auf den betreffenden Knoten minimiert werden, während die gewünschte Funktionalität betrieben wird. Dies ermöglicht es auch verhältnismäßig leistungsschwachen, z.B. im Verhältnis zu weiteren Knoten des verteilten Netzwerks, lokal vor Ort Funktionali- täten auszuführen. Ausführungsformen können den Vorteil haben, dass sie eine Implementierung eines Edge-Computing-Systems bereitstellen.

Edge Computing bezeichnet eine dezentrale Datenverarbeitung am Rand eines Netzwerks, der sogenannten Edge. Das Edge Computing stellt einen Gegensatz zum Cloud Computing dar, bei welchem Computer-Anwendungen, Daten und Dienste zentral, d.h. von zentralen Netzwerkknotennoten, einer Mehrzahl von de- zentralen Netzwerkknoten zur Nutzung bereitgestellt werden.

Demgegenüber ist das Edge Computing darauf ausgerichtet, Computer-Anwendun- gen, Daten und Dienste möglichst vor Ort lokal oder zumindest in der Nähe zu ver- arbeiten. Dies kann den Vorteil haben, dass Datenströme ressourcenschonend auf lokale Netzwerkbereich begrenzen lassen. Hierbei können insbesondere Ressour- cen verwendet werden, welche nicht permanent mit einem Netzwerk verbunden sind, insbesondere mobile Computersysteme, z.B. Controller, Notebooks, Smart- phones, Tabletcomputer und Sensoren. Beim Edge Computing können unterschied- liche Verfahren und Strukturen Anwendung, wie etwa Sensornetze, eine mobile Da- tenerfassung, eine mobile Signaturanalyse und/oder eine Peer-to-Peer- sowie Ad- hoc-Vernetzung. Edge Computing kann den Vorteilhaben, dass es als Architektur- konzept für das Internet der Dinge (loT) verwendet lässt, welches eine Verknüpfung eindeutig identifizierbarer physischer Objekte, d.h.„things“, mit einer virtuellen Re- präsentation bzw. Identität in einer Netzwerkstruktur, z.B. einer„Internet“ -ähnlichen Struktur, herstellt.

Dienste, welche im Zuge des Edge Computing bereitgestellt werden, können den Vorteil haben, dass sich das zu übertragende Datenvolumen und damit der Daten- austausch ebenso wie die Übertragungsstrecken Signifikat reduzieren lassen, wodurch sich Übertragungskosten und Wartezeiten verringern lassen. Im Ergebnis kann so die Servicequalität insgesamt verbessert werden. Beim Edge Computing sind zentrale Rechenzentren nicht oder höchsten in geringer Anzahl notwendig, wodurch sich Flaschenhalseffekte an solchen Rechenzentren für den Datentransfer vermeiden lassen ebenso wie damit verbundene potentielle Fehlerquellen. Indem verschlüsselte Dateien näher an den jeweiligen Datenquellen und/oder Verschlüs- selungsinstanzen verarbeitet werden, lässt sich zudem die Sicherheit der von Daten innerhalb des verteilten Systems erhöhen. Insbesondere können dadurch potentielle Sicherheitsgefahren wie etwa Viren, verfälschte Daten und/oder Hackerangriffe frühzeitig erkannt und wirksam abgewehrt werden. Zudem erweitert die Fähigkeit zur Virtualisierung die Skalierbarkeit innerhalb des Systems, d.h. die Anzahl der Edge-Geräte im Netzwerk lässt sich problemlos steigern. Schließlich können unter Verwendung des Edge Computings infolge der schnelleren Datenverarbeitung Echt- zeit-Anforderungen im Internet der Dinge besser unterstützt als dies im Zuge des Cloud Computings im Allgemeinen möglich ist.

Nutzer umgeben sich im Alltag in immer höherem Maße mit elektronischen Geräten, welche Computerfunktionalität und -konnektivität aufweisen. Ein Trend ist die zu- nehmende Verbreitung von Wearables, d.h. Computersystemen, die während der Anwendung am Körper des Nutzers angeordnet sind. Ein weiterer Trend ist das Er- setzen von Gegenständen des Alltags durch„intelligente Gegenstände“ (auch „smart devices“ genannt), welche informationstechnisch aufgerüstete und dazu kon- figuriert sind selbst Informationen zu verarbeiten. Diese intelligenten Gegenstände sind mit datenverarbeitender Hardware ausgerüstet, wie etwa einem eingebauten Mikrocontroller, Kommunikationsschnittstellen und/oder Sensoren, sodass sie Daten erfassen, speichern und/oder untereinander austauschen können. Ein Schlagwort für diese Entwicklung ist beispielsweise das sogenannte Internet der Dinge (abge- kürzt auch loT von„internet of things“).

Beispielsweise wird eine Mehrzahl von Datenerfassungsvorrichtungen bereitgestellt, welche in dem verteilten Datenbanksystem angeordnet sind, lokal Daten erfassen oder erzeugen und diese Daten bzw. darauf basierende Ergänzungsdatensätze je- weils mittels einer Kommunikationsschnittstelle über das Netzwerk an ein oder meh- rere andere Knoten übertragen. Durch die Reduktion der Software auf Ihre Kernfunktionalitäten können Speicherbe- darf und Rechenkapazität eingespart werden, so dass die entsprechende Software beispielsweise in loT-Sensoren effektiv und effizient eingesetzt werden kann.

Durch eine Verknüpfung der Daten mit jeweils einem Besitzer bzw. mit einer Identi- tät, kann das Sicherheitsniveau der Daten gehoben, da eine nachträgliche Manipu- lation der Daten durch Unberechtigte ausgeschlossen werden kann.

Durch die Verwendung von gezielten Funktionalitäten einer Softwarekomponente, können lokal auf ressourcenbeschränkten Knoten in einem verteilten System Funkti- onalitäten ausgeführt werden, für welche ansonsten die gesamte Software notwen- dig wäre.

Ausführungsformen können den Vorteil haben, dass sie ein vorteilhaftes verteiltes Datenbanksystem für das Internet der Dinge bereitstellen können.

Nach Ausführungsformen umfasst das Ergänzen des Index:

• Abgleichen der zusätzlichen Token mit dem Index der Quelldatenbank,

• falls eines der zusätzlichen Token nicht von dem Index der Quelldatenbank umfasst ist, Ergänzen des entsprechenden zusätzlichen Tokens in dem Index der Quelldatenbank und Verknüpfen des entsprechenden zusätzlichen Tokens in dem Index mit dem Zeiger auf den zusätzlichen in dem dokumentenorien- tierten Datenmodell der Quelldatenbank gespeicherten Datensatz,

• falls eines der zusätzlichen Token von dem Index der Quelldatenbank umfasst ist, Verknüpfen des entsprechenden zusätzlichen Tokens in dem Index der Quelldatenbank mit dem Zeiger auf den zusätzlichen in dem dokumentenori- entierten Datenmodell der Quelldatenbank gespeicherten Datensatz.

Ausführungsformen können den Vorteil haben, dass Daten aus zusätzlichen Da- tensätze effizient in die bestehende Einzeldatenbank und insbesondere in den Index eingefügt werden können. Die unter Verwendung des zusätzlichen Datensatzes er- zeugten Token werden mit dem Index abgeglichen. Alle Token, welche der Index (noch) nicht umfasst, werden in dem Index als zusätzliche Token ergänzt. Ferner werden die zusätzlichen Token jeweils mit dem Zeiger auf den zusätzlichen Daten- satz verknüpft. Somit kann auch bei einer Übertragung der entsprechenden In- dexstrukturen zur Ergänzung eines anderen Index einer anderen Einzeldatenbank anhand der Zeiger nachvollzogen werden, welche Einzeldatenbank die zugrundelie- genden Daten bzw. Datensätze umfasst.

Für solche Token des zusätzlichen Datensatzes, welche der Index bereits umfasst, wird in dem Index jeweils der Zeiger auf den zusätzlichen Datensatz ergänzt.

Ausführungsformen können den Vorteil haben, dass stets sichergestellt werden kann, dass der Index alle von den Datensätzen der Datenbank umfassten Token aufweist oder zumindest berücksichtigt.

Nach Ausführungsformen wird der Ergänzungsdatensatz von der Quelldatenbank über das Netzwerk an eine vordefinierte erste Gruppe von ein oder mehreren Ein- zeldatenbanken der Mehrzahl von Einzeldatenbank als Empfangsdatenbanken ge- sendet, welche die zweite Einzeldatenbank umfasst. Ausführungsformen können den Vorteil haben, dass für vordefinierte erste Gruppe sichergestellt werden kann, dass deren Mitglieder jeweils über den vollständigen datenbankübergreifenden In- dex verfügen. Dies kann beispielsweise in einem asymmetrischen System vorteil- haft sein, in welchem für ein oder mehrere der Einzeldatenbanken keine Notwendig- keit eines Bereitstellens eines vollständigen Index besteht. Dies kann etwa der Fall sein, falls auf diesen Datenbanken keine oder nur selten lokale Suchen ausgeführt werden. In diesem Fall dient die entsprechende Einzeldatenbank in erster Linie als Datenspeicher und zur Parallelisierung der Indexerstellung.

Nach Ausführungsformen wird der Ergänzungsdatensatz von der Quelldatenbank über das Netzwerk an alle weiteren von der Mehrzahl von Einzeldatenbanken um- fassten Einzeldatenbanken als Empfangsdatenbanken gesendet wird. Ausführungs- formen können den Vorteil haben, dass auf allen Einzeldatenbanken jeweils ein da- tenbankübergreifender Index implementiert werden kann. Nach Ausführungsformen ist eine vordefinierte zweite Gruppe von mehreren Einzel- datenbanken der Mehrzahl von Einzeldatenbank dazu konfiguriert, bei Empfang zu- sätzlicher Datensätze jeweils als eine Quelldatenbank zu fungieren. Nach Ausfüh- rungsformen sind alle Einzeldatenbanken der Mehrzahl von Einzeldatenbanken dazu konfiguriert, bei Empfang zusätzlicher Datensätze jeweils als eine Quelldaten- bank zu fungieren. Je nachdem wie viele der Einzeldatenbänke auch als Quellda- tenbänke konfiguriert sind können unterschiedliche Grade an Vereinheitlichung der individuellen Indexe der Einzeldatenbänke erzielt werden.

Nach Ausführungsformen ist der Quelldatenbank ein Sensor zugeordnet und der zu- sätzliche Datensatz umfasst von dem Sensor erfasste Sensordaten. Ausführungs- formen können den Vorteil habe, dass die Sensordaten direkt nach ihrer Erfassung indexiert werden. Nach Ausführungsformen ist jeder Einzeldatenbank der Mehrzahl von Einzeldatenbanken jeweils ein oder mehrere Sensoren zugeordnet sind, von welchen die jeweilige Einzeldatenbank jeweils erfasste Sensordaten in Form zusätz- licher Datensätze empfängt.

Nach Ausführungsformen umfasst die Datenverarbeitungsfunktion ferner ein Nor- malisieren der zusätzlichen Token im Zuge des Ergänzens des Index der Quellda- tenbank. Nach Ausführungsformen erfüllt das Normalisieren die fünfte und/oder sechste Normalform. Ausführungsformen können den Vorteil haben, dass Redun- danzen vermieden werden können.

Nach Ausführungsformen können die Token in Form von Relationen oder äquiva- lenten Strukturen gespeichert sein. Unter einer Relation wird hier im Sinn der relati- onalen Datenbanktheorie eine Menge von Tupel. Ein Tupel ist eine Menge von Attri- butwerten. Ein Attribut bezeichnet einen Datentyp bzw. eine ein oder mehreren Da- ten zugeordnete Eigenschaft. Dabei bestimmt die Anzahl der Attribute den Grad, die Anzahl der Tupel die Kardinalität einer Relation.

Unter einer Normalisierung, insbesondere unter einer Normalisierung eines relatio- nales Datenmodells, wird eine Aufteilung von Attributen in eine Mehrzahl von Relationen gemäß einer Normalisierungsregeln verstanden, sodass Redundanzen reduziert bzw. minimiert werden. Ein relationales Datenmodell lässt sich beispiels- weise in tabellenartigen Datenstrukturen implementieren, in denen die Relationen in Form von Tabellen, die Attribute in Form von Tabellenspalten und die Tupel in Form von Tabellenzeilen realisiert sind.

Datenredundanzen haben die Gefahr, dass es bei Änderungen von Daten, welche mehrfach umfasst sind, zu Inkonsistenzen kommen kann und Anomalien auftreten. Ferner steigt durch Redundanzen unnötiger Weise der Speicherplatzbedarf. Durch eine Normalisierung können solche Redundanzen verringert bzw. minimiert werden. Ein relationales Datenmodell kann beispielsweise in eine Normalform gebracht wer- den, indem die Relationen des Datenschemas fortschreitend anhand der für die ent- sprechende Normalform geltenden funktionalen Abhängigkeiten in einfachere Rela- tionen zerlegt.

Es können beispielsweise folgende Normalformen unterschieden werden: 1 . Nor- malform (1 NF), 2. Normalform (2NF), 3. Normalform (3NF), Boyce-Codd-Normal- form (BCNF), 4. Normalform (4NF), 5. Normalform (5NF), 6. Normalform (6NF).

Die Normalisierungskriterien nehmen dabei von Normalform zu Normalform zu und umfassen jeweils die Normalisierungskriterien der vorhergehenden Normalformen, d.h.

Eine Relation ist in der ersten Normalform, falls jedes Attribut der Relation einen atomaren Wertebereich besitzt und die Relation frei von Wiederholungsgruppen ist. Unter atomar wird hier ein Ausschluss von zusammengesetzten, mengenwertigen oder geschachtelten Wertebereichen für die Attribute, d.h. relationenwertigen Attri- butwertebereichen, verstanden. Eine Freiheit von Wiederholungsgruppen erfordert es, dass Attribute, die gleiche bzw. gleichartige Information enthalten, in unter- schiedliche Relationen ausgelagert werden.

Eine Relation ist in der zweiten Normalform, wenn sie die Anforderungen der ersten Normalform erfüllt und kein Nichtprimärattribut funktional von einer echten Teilmenge eines Schlüsselkandidaten abhängt. Ein Nichtprimärattribut ist ein Attri- but, welches nicht Teil eines Schlüsselkandidaten ist. Das bedeutet, dass jedes Nichtprimärattribut jeweils von allen ganzen Schlüsseln abhängig und nicht nur von einem Teil eines Schlüssels. Relationen in der ersten Normalform, deren Schlüssel- kandidaten nicht zusammengesetzt sind, sondern aus jeweils einem einzelnen Attri- but bestehen, erfüllen mithin automatisch die zweite Normalform. Unter einem Schlüsselkandidaten wird hierbei eine minimale Menge von Attributen verstanden, welche die Tupel einer Relation eindeutig identifiziert.

Eine Relation ist in der dritten Normalform, wenn sie die Anforderungen der zweiten Normalform erfüllt und kein Nichtschlüsselattribut von einem Schlüsselkandidaten transitiv abhängt. Ein Attribut ist von einem Schlüsselkandidaten transitiv abhängig, wenn das entsprechende Attribut von dem entsprechenden Schlüsselkandidaten über ein weiteres Attribut abhängig ist.

Eine Relation ist in der Boyce-Codd-Normalform, wenn sie die Anforderungen der dritten Normalform erfüllt und jede Determinante ein Superschlüssel ist. Unter einer Determinante wird hier eine Attributmenge verstanden, von welcher andere Attribute funktional abhängen sind. Eine Determinante beschreibt somit die Abhängigkeit zwi- schen Attributen einer Relation und legt fest, welche Attributmengen den Wert der übrigen Attribute bestimmen. Ein Superschlüssel ist eine Menge von Attributen in ei- ner Relation, welche die Tupel in dieser Relation eindeutig identifizieren. Mithin um- fassen die Attribute dieser Menge bei paarweise ausgewählten Tupeln immer unter- schiedliche Werte. Schlüsselkandidat ist mithin eine minimale Teilmenge der Attri- bute eines Superschlüssels, welche die Identifizierung der Tupel ermöglicht.

Eine Relation ist in der vierten Normalform, wenn sie die Anforderungen der Boyce- Codd-Normalform erfüllt und keine nichttrivialen mehrwertigen Abhängigkeiten um- fasst.

Eine Relation ist in der fünften Normalform, wenn sie die Anforderungen der vierten Normalform erfüllt und keine mehrwertigen Abhängigkeiten umfasst, die voneinander abhängig sind. Die fünfte Normalform liegt somit vor, falls jeder nichttri- viale Verbund-Abhängigkeit durch die Schlüsselkandidaten impliziert ist. Eine Ver- bund-Abhängigkeit ist durch die Schlüsselkandidaten der Ausgangsrelation impli- ziert, wenn jede Relation der Menge von Relationen ein Superschlüssel der Aus- gangsrelation ist.

Eine Relation ist in der sechsten Normalform, wenn sie die Anforderungen der fünf- ten Normalform erfüllt und keine nichttrivialen Verbund-Abhängigkeiten umfasst.

Eine Relation genügt einer Verbund-Abhängigkeit (join dependency) von einer Mehrzahl von Relationen, falls sich die Relation als Ausgangsrelation verlustlos in die entsprechende Menge von Relationen zerlegen lässt. Die Verbund-Abhängigkeit ist trivial, falls eine der Relationen der Menge von Relationen alle Attribute der Aus- gangsrelation aufweist.

Nach Ausführungsformen umfasst die Datenverarbeitungsfunktion ferner ein Zuwei- sen von Rechten zum Verwalten und/oder Verarbeiten der Daten des zusätzlichen Datensatzes. Insbesondere kann dem zusätzlichen Datensatz in diesem Zuge direkt ein Besitzer zugewiesen werden. Dieser Besitzer kann beispielswiese zugleich mit bestimmten Zugriffsrechten versehen werden, welche ihm ein Verwalten und/oder Verarbeiten der Daten ermöglicht. Nach Ausführungsformen weist das erste Multi- Modell-Datenbankmanagementsystem einer der Quelldatenbank zugeordneten ers- ten Entität ein Eigner-Recht bezüglich des zusätzlichen Datensatz und/oder des Er- gänzungsdatensatzes zu. Somit wird die entsprechende Entität als Eigner bzw. Be- sitzer des zusätzlichen Datensatz und/oder des Ergänzungsdatensatzes festgelegt.

Nach Ausführungsformen werden die Daten direkt durch den die entsprechenden Daten erfassenden bzw. erzeugenden Knoten mit einem Besitzer verknüpft bzw. ei- nem Besitzer zugeordnet.

Nach Ausführungsformen werden mit den erfassten oder erzeugten Daten auf den ressourcenbeschränkten Knoten des verteilten Systems, z.B. loT-Sensoren, Be- rechtigungsketten mit den erhobenen Daten gebildet. Die Berechtigungsketten definieren Zugriffsrechte für eine Reihe von Entitäten. Nach Ausführungsformen sind das auf diesen Systemen keine zentrale Datenbank mit Berechtigungskonzept notwendig, da die Funktionalitäten der Berechtigungsketten direkt auf den einzelnen Knoten implementiert werden. Mithin können selbst auf ressourcenbeschränkten Knoten Daten effektiv und effizient mit einem Besitzer verknüpft werden.

Ein Verknüpfen der Daten direkt bei der Datenerzeugung auf den einzelnen res- sourcenbeschränkten Knoten des verteilten Systems mit einem Besitzer, kann den Vorteil haben, die Datensicherheit zu erhöhen und Transparenz über die tatsächli- chen Besitzer der jeweiligen Daten zu gewährleiten.

Nach Ausführungsformen handelt es sich bei der ersten Entität um einen ersten Nutzer der Quelldatenbank oder ein erstes der Quelldatenbank zugeordnetes Com- putersystem. Handelt es sich um ein zugeordnetes, z.B. die Quelldatenbank umfas- sendes Computersystem, kann dies etwa bei Anwendungen im Bereich des Inter- nets der Dinge von Vorteil sein, da jeder durcheine entsprechende Sensorik erfass- ter Datensatz automatisch im Zuge der Einpflege in die entsprechende Einzeldaten- bank einen eindeutigen Besitzer zugewiesen bekommt.

Nach Ausführungsformen werden als Bestandteil des zusätzlichen Datensatz und/o- der des Ergänzungsdatensatzes Zugriffsberechtigungsnachweise in der Quelldaten- bank gespeichert, wobei die Zugriffsberechtigungsnachweise ein oder mehrere der folgenden Zugriffsberechtigungsnachweise umfassen:

• ein Lesezugriffs-Berechtigungsnachweis, welcher einen lesenden Zugriff auf den Inhalt eines Datensatzes ermöglicht;

• ein Schreibzugriffs- Berechtigungsnachweis, welcher modifizierenden Zugriff auf den Inhalt eines Datensatzes ermöglicht;

• ein Indexzugriffs- Berechtigungsnachweis, welcher Kenntnis der Existenz des Datensatzes in der den Datensatz beinhaltenden Datenbank und einen le- senden Zugriff auf Metadaten des Datensatzes ermöglicht. Zugriffs-Berechtigungsnachweise können als Zugriffs-Zertifikate ausgebildet sein. Nach Ausführungsformen handelt es sich bei den Zugriffs-Zertifikaten um reine Zah- lenwerte, nicht um komplexe x509 Zertifikate. Metadaten bezüglich der Gültigkeit der Zertifikate und bezüglich anderer Aspekte können getrennt von dem eigentli- chen Zugriffs-Zertifikat in einer zusätzlichen ID-Datenbank eines Zugriffsverwal- tungssystems der entsprechenden Einzeldatenbank gespeichert sein. Vorzugsweise enthält jeder Datensatz in seinen entsprechenden Feldern sämtliche Zugriffs-Zertifi- kate des diesen Datensatz erstellenden Nutzers bzw. der Entität, welcher dieser Da- tensatz inertial zugeordnet wird. Wird beispielsweise ein Datensatz DS von Nutzer U1 erstellt und der Nutzer U1 hat gemäß dem Inhalt der ID-Datenbank genau 3 Ty- pen von Zertifikaten (ein Lesezugriffs-Zertifikat„U1 .Z-Zert[R]“, ein Schreibzugriffs- Zertifikat„U1 .Z-Zert[W]“ und ein Indexzugriffs-Zertifikat„U1 .Z-Zert[S]“), so werden Kopien genau dieser 3 Zugriffs-Zertifikate im Zuge der Speicherung des Datensat- zes DS aus der ID-Datenbank erstellt und die in die entsprechenden Felder des Da- tensatzes DS gespeichert. Bei dem Nutzer U1 kann es sich auch um die entspre- chende Einzeldatenbank selbst bzw. einer dieser Einzeldatenbank zugeordneten Identität handeln. Als Authentifizierungsnachweis bzw. Identitätsnachweis kann bei- spielsweise ein geheimer Schlüssel eines der entsprechenden Einzeldatenbank zu- geordneten asymmetrischen kryptographischen Schlüsselpaars dienen. Alternativ kann die Identität auch von technischen Charakteristika, wie etwa bestimmten Spannungs- oder Strommustern der entsprechenden Einzeldatenbank bzw. eines die entsprechende Einzeldatenbank umfassenden Computersystems handeln ver- gleichbar mit biometrischen Merkmalen im Falle lebender Personen.

Nach Ausführungsformen weisen die Einzeldatenbank und/oder Komponenten der- selben Mittel zum Schutz gegen unbefugte Manipulationen auf. Durch die Mittel zum Schutz gegen unbefugte Manipulationen wird durch technische Maßnahmen die Vertrauenswürdigkeit der Einzeldatenbank bzw. von deren Steuerelementen, wie etwa Prozessoren, das heißt seine Funktion als„Vertrauensanker“, gewährleistet. Beispielsweise umfasst die Einzeldatenbank Komponenten bzw. ist auf Komponen- ten implementiert, welche von einer vertrauenswürdigen Institution, wie z.B. durch ein Trust-Center (Trust Service Provider), konfiguriert und mit dem benötigten kryptografischen Schlüsselmaterial versehen wurden. Durch die Mittel zum Schutz gegen unbefugte Manipulationen kann sichergestellt werden, dass sicherheitsrele- vante Funktionalitäten der Einzeldatenbank bzw. des diese Einzeldatenbank umfas- senden Computersystems nicht unerlaubter Weise modifiziert werden.

Nach einer Ausführungsform der Erfindung sind die Mittel zum Schutz gegen unbe- fugte Manipulationen als ein so genanntes Tamper Proof Module oder Trusted Plat- form Module (TPM) ausgebildet, welche auch als Tamper Resistant Module (TRM) bezeichnet werden. Beispielsweise sind zumindest Teile der Einzeldatenbank bzw. des die Einzeldatenbank umfassenden Computersystems signiert, wie z.B. Pro- gram mkomponenten und/oder Hardwarekomponenten, die eine digitale Signatur tragen können. Insbesondere können ein Betriebssystem, Multi-Modell-Datenbank- managementsystem, eine Konfigurationsdatei und/oder ein Massenspeichermedium digital signiert sein. Vor einer Nutzung der Einzeldatenbank prüft das TRM dann, ob die Signatur bzw. die Signaturen, valide sind. Die Prüfung kann sich dabei auch auf die oben erwähnten technischen Charakteristika stützen. Wenn eine der Signaturen nicht valide ist, sperrt das TRM die Nutzung der Einzeldatenbank. Ein TPM umfasst beispielsweise Mikrokontroller nach der TCG-Spezifikation wie in ISO/IEC 1 1889, der einen Computer oder ähnliche Geräte um grundlegende Sicherheitsfunktionen erweitert.

Nach einer Ausführungsform der Erfindung beinhalten die Mittel zum Schutz gegen unbefugte Manipulationen mechanische Mittel, die z.B. das Öffnen von Komponen- ten und/oder des gesamten Computersystems verhindern sollen, oder die bei dem Versuch eines Eingriffs dazu führen, dass die entsprechenden Komponenten un- brauchbar werden, beispielsweise indem ein Datenverlust und/oder eine Datensper- rung eintritt. Beispielsweise können hierzu sicherheitskritische Teile in Epoxidharz eingegossen sein, wobei ein Versuch, eine betreffende Komponente aus dem Epo- xidharz zu entfernen, zu einer unvermeidlichen Zerstörung dieser Komponente führt. Insbesondere können die Mittel zum Schutz gegen unbefugte Manipulationen als ein so genanntes Hardware Security Modul (HSM) ausgebildet sein. Wenn nun der Nutzer U1 der ersten Einzeldatenbank einem anderen Nutzer U2 der- selben Einzeldatenbank oder einer weiteren Einzeldatenbank oder auch einer weite- ren Einzeldatenbank an sich Leserechte bezüglich des Datensatzes DS einräumt, bedeutet dies, dass in der ID-Datenbank des entsprechenden Zugriffsverwaltungs- system eine Verknüpfung bzw. Zuordnung dieses Lesezugriffs-Zertifikat

,,Z.Zert_U1 [R]“ des Nutzers U1 und des Nutzer-Zertifikats des Nutzers U2 gespei- chert wird, wodurch ein Ermächtigungskettenobjekte gebildet wird. Falls der Nutzer U2 nun zu einem späteren Zeitpunkt auf den Datensatz DS zugreifen will, sendet die Einzeldatenban, die den Datensatz DS beinhaltet, in Antwort auf die Zugriffsan- frage des Nutzers U2 automatisch eine Berechtigungsanfrage an die ID-Datenbank des Zugriffsverwaltungssystem. Diese Anfrage beinhaltet die in dem Datensatz DS gespeicherten Zugriffsrechte des Erstellers U1 . Die ID-Datenbank prüft daraufhin, ob ein dem Nutzer U2 zugeordnetes Nutzer-Zertifikat in der ID-Datenbank mit ein oder mehreren der in dem Datensatz DS gespeicherten Zugriffsrechten des Erstel- lers U1 verknüpft gespeichert ist. Nur falls dies der Fall ist, und falls der Nutzer U2 außerdem Eigner der Quelldatenbank ist, darf er auf den Datensatz zugreifen.

Nach Ausführungsformen umfasst das zumindest eine Zugriffs-Zertifikat, dass vor- zugsweise als Bestandteil des erstellten Datensatzes gespeichert ist, mehrere Zu- griffs-Zertifikate für jeweils andere Zugriffsarten. Die mehreren Zugriffs-Zertifikate umfassen zum Beispiel ein Schreibzugriffs-Zertifikat Z.Zert_U1 [W] des erstellenden Nutzers und/oder ein Lesezugriffs-Zertifikat Z.Zert_U1 [R] des erstellenden Nutzers und/oder ein Indexzugriffs-Zertifikat Z.Zert_U1 [S] des erstellenden Nutzers.

Nach Ausführungsformen handelt es sich bei dem Zugriffsverwaltungssystem um ein„Standard“ Zugriffsverwaltungssystem, das üblicherweise auf einem Standard- computersystem installiert ist. Ein„Standard“ Zugriffsverwaltungssystem kann z.B. MySQL, PostGreSQL, Oracle, SAP Hana, etc. sein. Es ist jedoch auch möglich, dass andere Systeme, die zur strukturierten Speicherung und Abfrage von Daten ausgelegt sind, als Zugriffsverwaltungssystem verwendet werden, z.B. Mikrocontrol- ler, in deren Speicher die Datensätze, Zertifikate und Ermächtigungskettenobjekte sowie die hier beschriebene Programmlogik gespeichert sein kann. Nach Ausführungsformen handelt es sich bei einem Nutzer-Zertifikat zum Beispiel ein Zertifikat, das von einer Zertifizierungsstelle (certifying authority - CA) spezifisch für eine bestimmte Person herausgegeben wird. Das Nutzer-Zertifikat ist in eine von einer Zertifizierungsstelle herausgegebene Zertifikatskette prüfbar eingeordnet, es ist also beispielsweise bis zum Root-Zertifikat der Zertifizierungsstelle prüfbar. Dies kann vorteilhaft sein, da Zertifizierungsstellen als unabhängige Vertrauensgaranten auf breiter Basis bereits akzeptiert sind und bereits von vielen bestehenden techni- schen Systemen zur Prüfung der Authentizität bestimmter Nutzer und Nutzeraktio- nen verwendet werden.

Nach Ausführungsformen sind in einer ID-Datenbank des Zugriffsverwaltungssys- tem jeweils eine Mehrzahl von Nutzer-Zertifikaten und/oder eine Mehrzahl von Zu- griffs-Zertifikaten gespeichert. Außerdem beinhalten die ID-Datenbanken jeweils Zu- griffsermächtigungskettenobjekten.

Ein Ermächtigungskettenobjekt, genauer gesagt ein Zugriffsermächtigungskettenob- jekt, ist ein Datenobjekt, welches eines der Zugriffs-Zertifikate und ein oder mehrere der Nutzer-Zertifikate beinhaltet (und dadurch einander zuweist). Die Reihung der Nutzer-Zertifikate in dem Zugriffsermächtigungskettenobjekt gibt die Sequenz der Nutzer, die dieses Zugriffs-Zertifikat für jeweils andere Nutzer, deren Nutzer-Zertifi- kat in dem Zugriffsermächtigungskettenobjekt enthalten ist, ausgestellt haben, wie- der. Eine so erzeugte Berechtigungshierarchie umfasst eines der Zugriffsermächti- gungskettenobjekte.

Nach Ausführungsformen umfasst jede der Einzeldatenbanken jeweils eine entspre- chende ID-Datenbank, welche die Zugriffsberechtigungen auf die Datensätze und/o- der den Index der entsprechenden Einzeldatenbank verwaltet.

Nach Ausführungsformen sind die Einzeldatenbanken bzw. deren Datenmodelle frei von Zugriffsermächtigungskettenobjekten und beinhalten für jeden Datensatz nur die Zugriffs-Zertifikate, die dem Nutzer, welcher diesen Datensatz angelegt hat bzw. welchem dieser Datensatz zugeordnet ist, Zugriff auf diesen Datensatz gewähren.

Die Verknüpfung dieser Zugriffs-Rechte des Datensatzerzeugers mit ein oder meh- reren anderen Nutzern um diesen Zugriff auf den Datensatz zu gewähren ist nicht in der Einzeldatenbanken bzw. deren Datenmodelle gespeichert, sondern in der ID- Datenbank. Umgekehrt enthält die ID-Datenbank keine Referenz auf einzelne Da- tensätze der Einzeldatenbank bzw. deren Datenmodelle. Dies kann vorteilhaft sein, da die Größe und Komplexität der einzelnen Datensätze der Einzeldatenbanken bzw. deren Datenmodelle begrenzt und logisch von der Verwaltung der Zugriffs- rechte weitgehend entkoppelt wird. Die Größe der Datensätze wird also auch dadurch begrenzt, dass nicht die komplette Kette der Berechtigungsübertragungen als Bestandteil der Datensätze gespeichert wird. Insbesondere bei einer Mehrzahl kleiner Datensätze mit identischer Berechtigungsstruktur kann dies den von der Da- tenbank benötigten Speicherplatz erheblich reduzieren.

Nach Ausführungsformen beinhaltet die ID-Datenbank des Zugriffsverwaltungssys- tem einen privaten Signierschlüssel. Die Einzeldatenbank beinhaltet einen öffentli- chen Signaturprüfschlüssel, welcher zur Prüfung der mit dem Signierschlüssel er- stellten Signaturen ausgebildet ist. Im Zuge einer Zugriffsanfrage eines ersten Nut- zers auf einen Datensatz der Einzeldatenbank ermittelt das Zugriffsverwaltungssys- tem, ob dem Nutzer-Zertifikat in der ID-Datenbank eines oder mehrere Zugriffbe- rechtigungsnachweise, die in Kopie als Bestandteil des Datensatzes gespeichert sind, zugeordnet ist. Falls dies der Fall ist, wird dieser Zugriffsberechtigungsnach- weis mit dem Signierschlüssel der ID-Datenbank signiert und mit dem entsprechen- den Signaturprüfschlüssel der Einzeldatenbank geprüft. Der Berechtigungsnachweis wird in signierter Form an die Einzeldatenbank übermittelt. Die Einzeldatenbank prüft mittels des Signaturprüfschlüssels, ob die Signatur des Berechtigungsnachwei- ses valide ist, wobei der Aufbau der Datenbankverbindung und der Datensatzzugriff nur dann gestattet werden, wenn die Signatur valide ist. Beispielsweise wird eine zentrale ID-Datenbank für das gesamte verteilte Daten- banksystem bereitgestellt. Dies kann vorteilhaft sein, da es nicht erforderlich ist, da nicht jede Einzeldatenbank selbst mit Programlogik zur Zertifikatskettenprüfung aus- zustatten. Ganz allgemein kann durch das beschriebene Verfahren bzw. die be- schriebene Datenbankstruktur eine weitgehende Trennung der Datenhaltung (in Einzeldatenbanken) und der Verwaltung von Zugriffsrechten (in der ID-Datenbank) erzielt werden. Die ID-Datenbank enthält und/oder ist operativ gekoppelt an ein oder mehrere Programmmodule zum Beispiel zur Zertifikatskettenprüfung (zum Beispiel von Nutzer-Zertifikaten bis hin zum Root-Zertifikat von der das Nutzer-Zertifikat aus- stellenden Zertifizierungsstelle), zur Speicherung von Änderungen der Zuweisungen von Zertifikaten und Nutzern in einer Log-Datei sowie zur dynamischen Erstellung von signierten Berechtigungsnachweisen unter Berücksichtigung einer dokumentier- ten Chronologie der Übertragung von Rechten. Die individuellen Einzeldatenbanken verfügen dahingegen nach Ausführungsformen nur über Mittel zur Prüfung, ob für die Einzeldatenbank selbst bzw. für die darin enthaltenen Datensätze entspre- chende Berechtigungen vorliegen oder an diese operativ gekoppelt sind, wobei diese Mittel gegebenenfalls Mittel zur Signaturprüfung umfassen.

Nach einer Ausführungsform beinhaltet jeder der Datensätze in der Quelldatenbank ein oder mehrere Zugriffs-Zertifikate des den Datensatz erstellenden Nutzers bzw. einer Entität, welcher der entsprechende Datensatz zugeordnet ist. Den Zugriffs- Zertifikaten in der ID-Datenbank sind jeweils ein oder mehrere Nutzer-Zertifikate so zugeordnet, dass die chronologische Sequenz von Nutzern, die sich ein oder meh- rere der Zugriffsrechte des den Datensatz erstellenden Nutzers eingeräumt haben, jeweils in Form einer Hierarchie repräsentieren ist. Diese Zuordnung kann z.B. mit- tels Zugriffsermächtigungskettenobjekten erfolgen.

Unter einem„Zugriffsverwaltungssystem“ wird im Folgenden ein elektronisches Sys- tem zur Speicherung und Wiedergewinnung von Daten verstanden. Beispielsweise kann es sich bei dem Zugriffsverwaltungssystem um ein„klassisches Datenbank- managementsystem“ (DBMS) handeln (MySQL, PostgreSQL, Oracle, Hana, etc.).

Es ist aber auch möglich, dass die Daten in einem Mikrocontrollerspeicher gespeichert werden und von einem Applikationsprogramm oder einer Chipbasierten Programmlogik verwaltet werden, die als Zugriffsverwaltungssystem arbeitet und kein klassisches DBMS ist. Vorzugsweise werden die Daten in dem Zugriffsverwal- tungssystem widerspruchsfrei und dauerhaft gespeichert und verschieden Anwen- dungsprogrammen und Nutzern in bedarfsgerechter Form effizient zur Verfügung gestellt. Ein Zugriffsverwaltungssystem kann typischerweise ein oder mehrere Da- tenbanken beinhalten und die darin enthaltenen Datensätze verwalten.

Unter einer„ID-Datenbank“ wird im Folgenden eine Datenbank verstanden, welche nutzerbezogene Informationen wie zum Beispiel Nutzer-Zertifikate sowie den diesen Nutzern zugewiesenen Rechte in Form von weiteren Zertifikaten (Zugriffs-Zertifi- kate) enthält und verwaltet. In Abgrenzung zu den Einzeldatenbanken, die auch un- ter dem Begriff„Nutzdaten-Datenbanken“ zusammengefasst werden können und welche vorwiegend der Speicherung von Nutzdaten dienen, dient eine ID- Datenbank vorwiegend der Verwaltung der den Nutzern im Hinblick auf die Nutzda- ten zugewiesenen Eigner- und Zugriffsrechte.

Nach Ausführungsformen werden als Bestandteil des zusätzlichen Datensatzes und/oder des Ergänzungsdatensatzes für die erste Entität zumindest ein Indexzu- griffs-Berechtigungsnachweis gespeichert. Nach Ausführungsformen werden als Bestandteil des zusätzlichen Datensatzes und/oder des Ergänzungsdatensatzes für die erste Entität ein Lesezugriffs-Berechtigungsnachweis, ein Schreibzugriffs-Be- rechtigungsnachweis und ein Indexzugriffs-Berechtigungsnachweis gespeichert.

Nach Ausführungsformen wird ferner einer der Empfangsdatenbank zugeordneten zweiten Entität ein Indexzugriffs-Berechtigungsnachweis für den zusätzlichen Da- tensatz zugeordnet. Dies kann beispielsweise mittels eines zuvor beschriebenen Zugriffsermächtigungskettenobjekts erfolgen. Nach Ausführungsformen handelt es sich bei der zweiten Entität um einen zweiten Nutzer der Empfangsdatenbank oder ein zweites der Empfangsdaten zugeordnetes Computersystem. Nach Ausführungsformen ist eine Voraussetzung für das Senden des Ergänzungs- datensatzes an die Empfangsdatenbank eine erfolgreiche Prüfung, dass der zwei- ten Entität ein Indexzugriffs-Berechtigungsnachweis für den Ergänzungsdatensatz zugeordnet ist. Somit kann sichergestellt werden, dass die Empfangsdatenbank tat- sächlich dazu berechtigt ist auf entsprechende Indexinformationen, wie sie der Er- gänzungsdatensatz umfasst, zuzugreifen.

Nach Ausführungsformen umfasst die Datenverarbeitungsfunktion ferner ein Klassi- fizieren der aus dem zusätzlichen Datensatz erzeugten Token.

Nach Ausführungsformen umfasst die Quelldatenbank für das Klassifizieren ein vor- trainierten Lernmoduls zum maschinellen Lernen, wobei das vortrainierte Lernmodul eine Mehrzahl von vorbestimmten Trigger-Definitionen umfasst, welche Trigger für ein Zuordnen von Token zu Klassen einer ersten Gruppe von Klassen definieren, wobei erste Token in dem Index der Quelldatenbank, welche von einer der Trigger-Definitionen der Quelldatenbank als Trigger umfasst sind, jeweils der ent- sprechen Trigger-Definition zugeordnet sind, wobei zweite Token in dem Index der Quelldatenbank jeweils ein oder mehreren Klassen der ersten Gruppe von Klassen zugeordnet sind,

wobei das Klassifizieren umfasst:

• falls eines oder mehrere erste zusätzliche Token von einer der Trigger-Definiti- onen als Trigger umfasst sind, Identifizieren des entsprechenden Tokens als Trigger durch das Lernmodul,

• Verwenden der identifizierten Trigger zum Zuordnen von ein oder mehreren zweiten zusätzlichen Token zu ein oder mehreren Klassen der ersten Gruppe von Klassen durch das Lernmodul, falls die entsprechenden zweiten zusätzli- chen Token von dem zusätzliche Datensatz in einer Kombination mit ein oder mehreren der identifizierten Trigger gemäß einer der Trigger-Definitionen um- fasst sind, wobei die entsprechenden Trigger gemäß der entsprechenden Trig- ger-Definition eine entsprechende Klassenzuordnung triggern, wobei das Ergänzen des Index durch das erste Multi-Modell-Datenbankmana- gementsystem unter Verwendung der Klassenzuordnungen der zusätzlichen Token erfolgt.

Ausführungsformen können den Vorteil haben, dass es sich bei dem Lernmodul um ein vortrainiertes Lernmodul handelt. Das vortrainierte Lernmodul umfasst eine Mehrzahl inertial zur Verfügung gestellt bzw. festgelegt Trigger-Definitionen. Das Lernmodul ist dazu konfiguriert unter Verwendung dieser inertial festgelegten Trig- ger-Definitionen alle von der Datenbank bzw. dem Index umfassten Token zu klassi- fizieren. Ausführungsformen können den Vorteil haben, dass kein Zufall in den ent- scheidungs- bzw. Klassifizierungsprozess eingeht. Vielmehr beruht das Klassifizie- ren von Token auf den vorbestimmten Trigger-Definitionen und ist somit jederzeit nachvollziehbar. Auch wenn das Lernmodul beispielsweise auf Basis der Klassifizie- rung fortschreitet und im Zuge eines darauf beruhenden Lerntransfers weitere Mus- ter und Gesetzmäßigkeiten erlernt, so geht die zugrundeliegende Klassifizierung zu- rück auf die vorbestimmten Trigger-Definitionen.

Nach Ausführungsformen werden in Form der Klassifizierung Meta- und/oder Kon- textinformationen zu den klassifizierten Token bereitgestellt. Diese Meta- und/oder Kontextinformationen werden anhand der Trigger gemäß den Trigger-Definitionen identifiziert und den entsprechenden Token in Form der Klassenzuordnung zuge- ordnet. Nach Ausführungsformen kann das Lernmodul dazu konfiguriert sein, unter Verwendung dieser Meta- und/oder Kontextinformationen weitere Muster und Ge- setzmäßigkeiten zu erlernen.

Ausführungsformen können den Vorteil haben, dass die von der Quelldatenbank empfangenen Datensätze alle in ihrer ursprünglichen Form in dem dokumentenori- entierten Datenmodell abgespeichert werden. Hierdurch kann sichergestellt werden, dass der volle Informationsgehalt dieser Datensätze erhalten bleibt. Zusätzlich wer- den die von den in dem dokumentenorientierten Datenmodell abgespeicherten Da- tensätzen umfassten Daten in Form des Indexes bereitgestellt. Dieser Index um- fasst die entsprechenden Daten des dokumentenorientierten Datenmodells in Form von Token. Nach Ausführungsformen umfasst der Index alle von dem dokumenten- orientierten Datenmodell umfassten elementaren Datenelemente in Form von ele- mentaren Token. Nach Ausführungsformen umfasst der Index aus den Token abge- leitete Datenelemente. Nach weiteren Ausführungsformen umfasst der Index zu- sätzlich von dem dokumentenorientierten Datenmodell umfasste Kombinationen der elementaren Datenelemente in Form von Token-Kombinationen. Diese Token-Kom- binationen umfassen jeweils eine Kombination einer Mehrzahl von elementaren To- ken. Nach weiteren Ausführungsformen umfasst der Index Token-Kombinationen bis zu einer vorbestimmten Komplexität. Die Komplexität einer Token-Kombination ist beispielsweise definiert durch die Anzahl und/oder Art der von dieser umfassten elementaren Token.

Bei den von dem Index umfassten Token kann es sich beispielsweise um Trigger gemäß den vorbestimmten Trigger-Definitionen handeln. Ein entsprechendes Token wird, wenn es erstmals beispielsweise im Zuge der Verarbeitung eines zusätzlichen Datensatzes erzeugt wird, anhand einer der Trigger-Definitionen als Trigger identifi- ziert, dem Index hinzugefügt und der entsprechenden Trigger-Definition zugeordnet. Erkennt das Lernmodul dasselbe Token, welchen der Index als Trigger definiert, in- nerhalb eines weiteren Datensatzes wieder, so greift das Lernmodul auf die dem Triggern in dem Index zugeordnete Trigger-Definition zurück und ordnet der ent- sprechenden Trigger-Definition folgenden ein oder mehrere Token aus einem Kon- textumfeld des als Trigger gespeicherten Tokens in dem weiteren Datensatz ein o- der mehreren Klassen der ersten Gruppe von Klassen zu.

Ferner umfasst der Index eine Mehrzahl von Token, welche jeweils ein oder mehre- ren Klassen der ersten Gruppe von Klassen zugeordnet sind. Nach Ausführungsfor- men werden durch die Zuordnung zu den Klassen Meta- und/oder Kontextinformati- onen zu den entsprechenden Token bereitgestellt. Die entsprechenden Meta- und/oder Kontextinformationen können beispielsweise für eine Verarbeitung der ent- sprechenden Token und/oder der die entsprechenden Token umfassenden Datens- ätze in dem dokumentenorientierten Datenmodell verwendet werden. Beispiels- weise werden die entsprechenden Meta- und/oder Kontextinformationen im Zuge einer Suchanfrage zur Identifikation relevanter Token und/oder Datensätze verwen- det oder im Zuge eines den Index verwendenden weiteren Verfahrens zum maschi- nellen Lernen. So können unter Verwendung der entsprechenden Meta- und/oder Kontextinformationen im Zuge eines weiteren Lerntransfers zusätzliche Muster und Gesetzmäßigkeiten erlernt werden. Dieses weitere Verfahren zum maschinellen Lernen wird beispielsweise durch das die Trigger-Definitionen verwendende Lern- modul oder ein weitere Lernmodul ausgeführt. Beispielsweise handelt es sich bei dem weiteren Verfahren zum maschinellen Lernen um ein Kl-Verfahren, welches von einem Kl-Modul ausgeführt wird.

Nach Ausführungsformen sind verbleibende Token, welche weder den Trigger-Defi- nition noch ein oder mehreren Klassen der ersten Gruppe von Klassen zugeordnet sind, in dem Index der Quelldatenbank zum Kennzeichnen der entsprechenden ver- bleibenden Token als unbekannte Daten einer Auffangklasse zugeordnet, wobei die Zuordnung zu der Auffangklasse eine Zuordnung zu einer der Trigger-Definitionen ebenso wie eine Zuordnung zu einer der Klassen der ersten Gruppe von Klassen ausschließt,

wobei das Klassifizieren ferner umfasst:

• Zuordnen der verbleibenden zusätzlichen Token, für welche keine Zuordnung zu einer der Trigger-Definitionen und keine Klassenzuordnung aufgrund einer der Trigger-Definitionen erfolgt ist, zu der Auffangklasse.

Der Index umfasst in diesem Fall auch Token, welche unter keine der vorbestimm- ten Trigger-Definitionen fallen. Bei diesen Token handelt es sich weder um Trigger, noch lassen sie sich anhand der von den Trigger-Definitionen definierten Trigger Klassen zuordnen. Vielmehr handelt es sich bei diesen Token um unbekannte Da- ten, welche nicht zuordenbar sind und für welche damit Meta- bzw. Kontextinforma- tionen fehlen. Diese Token werden als unbekannte Daten einer Auffangklasse zuge- ordnet. Dabei schließt eine Zuordnung zu der Auffangklasse eine Zuordnung zu ei- ner der Trigger-Definitionen ebenso wie eine Zuordnung zu einer der Klassen der ersten Gruppen von Klassen aus. Ausführungsformen können den Vorteil haben, dass anhand der Token-Zuordnun- gen in einfacher Form erkannt werden kann, bei welchen Token es sich um unbe- kannte Daten handelt und bei welchen Token es sich um bekannte Daten, d.h. Trig- ger oder klassifizierbare Daten, handelt. Somit können beispielsweise Suchabfragen derart definiert werden, dass sie ausschließlich bekannte Daten berücksichtigen. Zusätzliche Lernalgorithmen können beispielsweise derart konfiguriert werden, dass sie ausschließlich auf bekannten Daten arbeiten. Mithin kann beispielsweise eine Verwendung von Zufall in einem Entscheidungs- bzw. Klassifizierungsprozess ver- wendet, selbst wenn zusätzliche Lernalgorithmen zum Einsatz kommen. Grundlage für alle Lernprozesse und/oder Kl-Prozesse bieten in diesem Fall die initial festge- legten Trigger, anhand derer die von der Datenbank empfangenen Daten klassifi- ziert werden. Nach Ausführungsformen bieten die vorbestimmenden Trigger-Defini- tionen eine Grundlage für ein überwachtes Lernen. Durch die Verwendung der vor- bestimmenden Trigger-Definitionen lassen sich Fehlentwicklungen in selbstkleben- den Systemen und/oder bei der Verarbeitung von Suchanfragen vermeiden, welche die in der Datenbank gespeicherten Daten verwenden.

Ausführungsformen können ferner den Vorteil haben, dass zusätzliche Datensätze, welche der Quelldatenbank hinzugefügt werden, jeweils dahingehend analysiert werden, welche der von ihnen umfassten Daten bekannte Daten sind und welche Daten unbekannte Daten sind. In diesem Kontext werden unter bekannten Daten solche Daten verstanden, welche als Trigger bekannt sind, für welche Meta- bzw. Kontextinformationen vorliegen und/oder für welche Meta- bzw. Kontextinformatio- nen unter Verwendung der Trigger-Definitionen aus dem Kontext der Datensätze abgeleitet werden können. Daten, bei welchen es sich weder um Trigger handelt noch um Daten, welche anhand der Trigger-Definitionen klassifizierbar sind, sind unbekannte Daten. Unbekannte Daten werden der Auffangklasse zugeordnet.

Ausführungsformen können den Vorteil haben, dass ein für das maschinelle Lernen optimiertes Datenbanksystem verwendet wird. Das entsprechende Datenbanksys- tem umfasst alle dem maschinellen Lernen zu Grunde liegenden Daten, d.h. sowohl zum Klassifizieren von Daten verwendete Trigger-Definitionen, als auch die Daten, welche unter Verwendung der Trigger-Definitionen verarbeitet werden. Somit wird ein kontinuierliches Lernen durch das Lernmodul unter Berücksichtigung aller von dem System bzw. dem Lernmodul gesehenen Daten ermöglicht.

Die Quelldatenbank speichert alle empfangenen Datensätze in einem dokumenten- orientierten Datenmodell. Ein dokumentenorientiertes Datenmodell bedeutet, dass das Datenmodell keine strukturellen Vorgaben an die zu speichernden Daten stellt. Vielmehr werden die Daten in Dokumenten bzw. Datencontainern in der Form ge- speichert, in der empfangen werden. In diesem Sinne handelt es sich bei den in dem dokumentenorientierten Datenmodell gespeicherten Daten um Rohdaten. Roh- daten bedeutet, dass die Daten in der Form abgespeichert werden, in der sie emp- fangen werden, ohne eine zusätzliche Datenverarbeitung durch das Datenbankma- nagementsystem, insbesondere keine Umstrukturierung der Daten. Ausführungsfor- men können den Vorteil haben, dass somit der gesamte Informationsgehalt der empfangenen Daten (nahezu) vollständig beibehalten werden kann, ohne dass Vor- annahmen des Datenbankmanagementsystems einfließen. Das Datenbankmanage- mentsystem ebenso wie das Lernmodul können jederzeit auf die ursprünglichen Da- tenbestände zurückgreifen und diese in bei der weiteren Verarbeitung berücksichti- gen.

Basierend auf diesem Datenpool an Rohdaten, welchen das dokumentenbasierte Datenmodell bereitstellt, wird ein Index erzeugt. Erst auf dieser Ebene werden aus den Datensätze strukturelle Information bzw. Sinnzusammenhänge extrahiert. Diese strukturellen Informationen bzw. Sinnzusammenhängen werden in Form von Klas- senzuordnungen der indexierten Daten berücksichtigt.

Hierzu werden die Datensätze durch eine Tokenisierung auf ein elementares Ni- veau heruntergebrochen, welches die elementaren Bestandteile der Datensätze in Form der Token berücksichtigt. Die Token werden durch das Lernmodul als Trigger einer der Trigger-Definitionen zugeordnet oder als unter Verwendung der Trigger- Definitionen klassifiziert. Alle Token, welche weder als Trigger identifiziert werden, noch sich unter Verwendung einer der Trigger-Definitionen klassifiziert lassen, werden als unbekannte Daten der Auffangklasse zugeordnet. Beispielsweise um- fasst das Lernmodul einen Klassifizierer und ist zur Klassifizierung der Token unter Verwendung der vorbestimmten Trigger-Definitionen konfiguriert. Die entspre- chende Klassifikation kann beispielsweise Teil einer Mustererkennung sein, bei wel- cher eine Merkmalsgewinnung durch die Tokenisierung implementiert wird. Basie- rend auf diese Merkmalsgewinnung erfolgt jedoch keine Merkmalsreduktion im klas- sischen Sinne, da der vollständige Datenbestand indexiert wird und somit jedes To- ken als Trigger erkannt oder einer Klasse, zumindest der Auffangklasse, zugeordnet wird.

Zudem ist jedes Token in dem Index mit einem oder mehreren Zeigern verknüpft, welche anzeigen, in welchen Datensätzen das entsprechende Token vorkommt. So- mit kann jederzeit auf die für einen Token relevanten Rohdaten zugegriffen werden und diese Rohdaten können zur Auswertung in Hinblick auf diesen Token herange- zogen werden.

Hierdurch werden die Token-Zuordnungen nach bekannten Daten, welche gesicher- ten Fakten darstellen, und unbekannte Daten differenziert. Ausführungsformen kön- nen den Vorteil haben, dass die Verwendung der von dem Lernmodul bestimmten Strukturen und Gesetzmäßigkeiten in den Datensätzen, welche sich in den Token- Zuordnungen niederschlagen, auf den einer Verwendung der vorbestimmten Trigger Definitionen beruht. Unbekannt Daten werden demgegenüber als solche erfasst und solange außen vorgelassen werden, bis diese ebenfalls klassifiziert und mithin als gesicherte Fakten angesehen werden können. Eine solche zusätzliche Klassifika- tion kann beispielsweise durch zusätzliche Trigger-Definitionen implementiert wer- den. Insbesondere können gezielt zusätzliche Trigger-Definitionen zur Reduktion des von der Auffangklasse umfassten Token-Menge ergänzt werden. Das Verfahren ermöglicht somit ein Lernen und/oder Klassifizieren unter Vorbehalt.

Ausführungsformen können daher den Vorteil haben, dass sie dem Lernmodul er- lauben auf dem gesamten zur Verfügung stehenden Datenbestand zu arbeiten. Ins- besondere können sie den Vorteil haben, ein kontinuierliches Lernen zu ermöglichen, welches sowohl zusätzliche Datensätze als auch bereits gespeicherte Datensätze berücksichtigt. Ausführungsformen können daher den Vorteil haben, dass sie nicht darauf beschränkt sind, dass aus einer zur Verfügung stehenden Ge- samtdatenmenge eine willkürliche Untermenge herausgegriffen wird, um auf dieser zu trainieren. Vielmehr werden alle von der Datenbank umfassten Daten unter Ver- wendung der Trigger-Definitionen verarbeitet. Durch Ergänzungen der Trigger-Defi- nitionen kann nach Ausführungsformen zudem erreicht werden, dass alle Token entweder als Trigger identifiziert oder unter Verwendung der (ergänzten) Trigger- Definitionen klassifiziert werden. Werden unbekannte Daten von Suchanfragen und/oder weiteren Lernprozessen ausgeschlossen, so erfolgt dieser Ausschluss nicht willkürlich, sondern basierend auf den bereitgestellten Trigger-Definitionen.

Ausführungsformen können den Vorteil haben, dass keine zufällige Initialisierung er- forderlich ist, wie etwa bei bekannten selbstlernenden Systemen, z.B. neuronalen Netzwerken. Die Initialisierung beruht vielmehr auf den vorbestimmten Trigger-Defi- nitionen. Durch das aus dieser zufälligen Initialisierung resultierende Zufallsmoment werden die Entscheidungen/Klassifizierungen eines entsprechenden neuronalen Netzes nicht transparent und nicht nachvollziehbar. Demgegenüber können Ausfüh- rungsformen den Vorteil haben, vollständig deterministisch zu sein.

Ausführungsformen können den Vorteil haben, dass ein bereits trainiertes System, d.h. das vortrainierte Lernmodul nachtrainiert bzw. weiter trainiert wird. So können Trigger-Definitionen ergänzt, entfernt oder geändert werden. Dadurch lassen sich beispielsweise auch die bei der Klassifizierung verwendeten Klassen ergänzen, ent- fernen oder ändern. Werden Trigger-Definitionen ergänzt, entfernt oder geändert, so sind alle auf diesen basierenden Zuordnungen von Token zu den entsprechenden Trigger-Definitionen oder zu einer der Klassen entsprechend anzupassen. Durch ein Ergänzen von Trigger-Definitionen können beispielsweise neue Strukturen erfasst werden, welche sich bisher noch nicht gezeigt haben. Dadurch kann insbesondere das Faktenwissen nachträglich erweitert werden, d.h. der Auffangklasse zugeordne- ten Token können andere Klassen zugeordnet werden. Nach Ausführungsformen implementiert das Lernmodul einen Algorithmus zum ma- schinellen Lernen, wobei das Verfahren nicht beschränkt ist auf einen bestimmten Algorithmus. Nach Ausführungsformen umfasst der Algorithmus zum maschinellen Lernen zumindest einen Klassifizierungsalgorithmus zum Klassifizieren von Token. Bei dem maschinellen Lernen kann es sich um ein überwachtes oder ein unüber- wachtes Lernen handeln. Das maschinelle Lernen kann eine Klassifizierung und/o- der eine Regressionsanalyse umfassen. Ein Lernalgorithmus versucht, eine Hypo- these bzw. eine Abbildung zu finden, welche jedem Eingabewert den (vermuteten) Ausgabewert zuordnet. Liegen die zuzuordnenden Ausgabewerte in einer kontinu- ierlichen Verteilung vor, deren Ergebnisse beliebige quantitative Werte eines vorge- gebenen Wertebereiches annehmen kann, wird im Allgemeinen von einem Regres- sionsproblem gesprochen. Liegen die zuzuordnenden Ausgabewerte hingegen in diskreter Form vor bzw. sind die Werte qualitativ, wird im Allgemeinen von einem Klassifikationsproblem gesprochen. Nach Ausführungsformen stützt sich das ma- schinelle Lernen auf die Klassifikation der indexierten Token. Gemäß Ausführungs- formen der Erfindung umfasst das Lernmodul einen speziell für das maschinelle Lernen entwickelten Algorithmus, wie zum Beispiel, ohne darauf beschränkt zu sein, eine dichtenbasierte multidimensionale Ausreißererkennung (engl „local outlier de- tection“), ein Random-Forrest-Algorithmus, ein Neuronales Netz, eine Support-Vek- tor-Maschine, ein Naive-Bayes-Klassifikator oder eine Rückkopplung ähnlich der Rückkopplung eines linearen oder nichtlinearen Reglers.

Unter einer Multi-Modell-Datenbank wird hier eine Datenbank verstanden, welche dazu konfiguriert ist eine Mehrzahl von unterschiedlichen Datenmodellen zu unter- stützen. Eine Multi-Modell-Datenbank ist also dazu konfiguriert Daten in mehr als ei- nem Datenmodell zu speichern, zu indexieren und abzufragen. Datenmodelle sind beispielsweise relational, spaltenorientiert, dokumentenorientiert, graphbasiert, Key- Value-basiert etc. Ein Datenbankmodell legt fest, in welcher Struktur Daten in einem Datenbanksystem gespeichert werden, d.h. in welcher Form die Daten organisiert, gespeichert und bearbeitet werden. Unter einer Datenbank wird im Folgenden eine (typischerweise große) Menge von Daten verstanden, die in einem Computersystem von einem Datenbankmanage- mentsystem (DBMS) nach bestimmten Kriterien verwaltet wird. Die Daten sind da- bei in einer Vielzahl von Datensätzen organisiert. Unter einem Datenbankmanage- mentsystem oder DBMS wird im Folgenden ein elektronisches System zur Speiche- rung und Wiedergewinnung von Daten verstanden. Vorzugsweise werden die Daten in dem DBMS widerspruchsfrei und dauerhaft gespeichert und verschieden Anwen- dungsprogrammen und Nutzern in bedarfsgerechter Form effizient zur Verfügung gestellt. Ein DBMS kann typischerweise ein oder mehrere Datenbanken beinhalten und die darin enthaltenen Datensätze verwalten. Bei dem DBMS kann es sich vor- zugsweise um ein feldorientiertes DBMS handeln, also um ein DBMS, das dazu konfiguriert ist, Teile einzelner Datensätze, sogenannte Feldwerte, in mehreren un- terschiedlichen Feldern zu speichern.

Unter einem Datensatz wird im Folgenden eine dem Datenbanksystem bereitge- stellte zusammenhängende Menge von Daten verstanden, welche von dem Daten- bankmanagementsystem als zusammenhängende Menge von Daten verwaltet wird. Ein Datensatz umfasst beispielsweise eine Menge inhaltlich zusammenhängender Daten. Nach Ausführungsformen werden Datensätze jeweils als zusammenhän- gende Datenmengen in dem dokumentenorientierten Datenmodell gespeichert. Bei- spielsweise kann ein einzelner Datensatz ein bestimmtes physisches Objekt, z.B. eine natürliche Person oder eine Vorrichtung, repräsentieren. Bei der Person kann es sich z.B. um einen Angestellten, einen Patienten, einen Kunden, etc. handeln.

Bei der Vorrichtung kann es sich beispielsweise um eine Produktionsvorrichtung, eine Computervorrichtung, ein Computer- oder Netzwerkelement oder eine Trans- portvorrichtung handeln. Der entsprechende Datensatz kann eine vordefinierte Menge von Attributwerten dieser Person oder Vorrichtung beinhalten (z.B. Name o- der Pseudonym, Alter, Größe, Gewicht, Geburtsdatum, Ausweisnummern, Sicher- heitszertifikate, Authentifizierungscodes, biometrische Daten, Identifikator, Fierstel- lungsdatum, Inbetriebnahmedatum, Konfigurationsdaten, und andere). Beispiels- weise kann ein Datensatz eine Gruppe von inhaltlich zusammenhängenden (zu ei- nem Objekt gehörenden) Datenfeldern repräsentieren, z. B. Artikelnummer, Artikelgröße, Artikelfarbe, Artikelname oder ähnliches. Die Klassen ,Name‘, Ad- resse' und ,Geburtsdatum' könnten z.B. die logische Struktur eines Datensatzes zum Objekttyp„Person“ bilden. In der Datenverarbeitung werden Daten in Form von Datensätzen in Datenbanken gespeichert, wobei sie sind Gegenstand der Verarbei- tung von Computerprogrammen und werden von diesen erzeugt, gelesen, verändert und gelöscht.

Ein„NoSQL“ (englisch für Not only SQL) DBMS ist ein DBMS, welches einem nicht- relationalen Ansatz der Datenspeicherung folgt und keine festgelegten Tabellen- schemata benötigt. Zu den NoSQL DBMSs gehören insbesondere dokumentenori- entierte DBMSs wie Apache Jackrabbit, BaseX, CouchDB, IBM Notes, MongoDB, Graphdatenbanken wie Neo4j, OrientDB, InfoGrid, HyperGraphDB, Core Data,

DEX, AllegroGraph, und 4store, verteilte ACID-DBMSs wie MySQL Cluster, Key-Va- lue-Datenbanken wie Chordless, Google BigTable, GT.M, InterSystems Cache, Membase, Redis, sortierte Key-Value-Speicher, Multivalue-Datenbanken, Obektda- tenbanken wie Db4o, ZODB, spaltenorientierte Datenbanken und temporale Daten- banken wie Cortex DB.

Ein Index ist eine Datenstruktur, welche eine Suche nach bestimmten Datenwerten durch ein Datenbankmanagementsystem beschleunigt. Ein Index besteht aus einer Ansammlung von Zeigern (Verweisen), die eine Ordnungsrelation auf mehrere (in dem Index gespeicherte)„indexierte“ Datenwerte definieren. Beispielsweise werden hierfür B+-Bäume verwendet. Jeder indexierte Datenwert ist mit weiteren Zeigern verknüpft, die auf Datensätze verweisen, in welchen der gefundene indexierte Da- tenwert enthalten ist und welche die Datenbasis für die Erstellung des Index dar- stellten. Datenbankmanagementsysteme verwenden Indizes um als Antwort auf eine Suchanfrage die gewünschten Datensätze schnell zu identifizieren, indem zu- nächst der Index entlang der Zeiger nach einem Datenwert durchsucht wird, wel- cher identisch zu einem in der Suchanfrage enthaltenen Referenzwert ist. Ohne In- dex müssten die von dem DBMS verwalteten Datenwerte eines Feldes sequenziell durchsucht werden, während eine Suche mit Hilfe des Index, z.B. eines B+-Baums, oft nur logarithmische Komplexität hat. Ferner ordnet der Index die indexierten Daten, d.h. Token, Klassen zu, wodurch die entsprechenden Daten mit Meta- bzw. Kontextinformationen verknüpft werden.

Diese Meta- bzw. Kontextinformationen können bei einer Suche und/oder bei einem maschinellen Lernprozess auf den Daten der Datenbank verwendet werden.

Unter einem Feld wird im Folgenden ein Bereich auf einem logischen oder physikali- schen Datenträger bezeichnet, der von einem DBMS verwaltet wird, der einem vor- definierten Feldtyp zugeordnet ist und der zur Speicherung eines Feldwertes eines Datensatzes angelegt und bestimmt ist. Ein Feld ist also ein Element zur Speiche- rung eines Feldwertes eines Datensatzes gemäß obiger Definition. Felder eines Da- tensatzes werden von einem DBMS gemeinsam verwaltet.

Ein Feldwert ist ein Datenwert, der Bestandteil eines Datensatzes ist und in einem Feld des Datensatzes gespeichert ist. Ein Feldwert kann aus einem einzigen Wort, einer einzigen Zahl, oder einer Kombination aus mehreren Wörtern und/oder Zahlen und/oder anderen Datenformaten bestehen, wobei verschiedene Ausführungsfor- men der Erfindung verschiedene Grade an Flexibilität im Hinblick auf die Art und Kombinierbarkeit von Datentypen innerhalb des gleichen Feldwertes umfassen.

Ein„Tokenisierer“ ist eine Programlogik, die Daten, zum Beispiel einen Feldwert, als Input erhält, die Daten analysiert, z.B. um Delimiter oder andere Zerlegungskriterien und Muster zu erkennen und die Daten dann in ein oder mehrere Token als Ergeb- nis der Analyse zerlegt und die Token zurückgibt. Es ist auch möglich, dass nicht alle Daten als Token zurückgegeben werden. Beispielsweise kann ein Volltextindi- zierer semantisch unbedeutende Stoppwörter erkennen und herausfiltern, sodass diese nicht indexiert werden. Alternativ werden alle Daten als zurückgegeben. Einen Datenwert zu„tokenisieren“ bedeutet also, den Datenwert nach einem bestimmten Schema in mehrere Bestandteile zu zerteilen. Die Bestandteile stellen die Token dar. So können z.B. natürlichsprachige Texte an vordefinierten Trennzeichen, z.B. Leerzeichen, Punkten oder Kommata, aufgeteilt werden, die so generierten Be- standteile (Wörter) werden als Token verwendet. Nach Ausführungsformen werden alle Token für die Indexierung verwendet. Es ist auch möglich, dass manche Token nicht für die Indexierung verwendet werden (z.B. Stopwörter) oder die Token vor der Indexierung zusätzlich verarbeitet werden (z.B. Reduzierung von Wörtern auf den Wortstamm). In diesem Fall erfolgt für eine Verarbeitung von Suchanfragen eines Client-Computersystems an ein Server-Computersystem vorzugsweise eine gleich- artige Verarbeitung des Suchwerts durch das Client-Computersystem oder das Ser- ver-Computersystem um sicherzustellen, dass die Suchwerte der Suchanfragen den in dem Index enthaltenen Token entsprechen.

Ein Klasse definiert beispielsweise eine Kategorie bzw. ein Typ, dem ein Token an- gehört. Die Klasse ordnet dem Token mithin Meta- bzw. Kontextinformationen, etwa in Form einer Eigenschaft zu. Beispielsweise kann eine Klasse ein bestimmtes Attri- but eines physischen Objekts in Form eines Token repräsentieren. Beispielsweise können zu speichernde Datensätzen, die Attribute von Angestellten enthalten, wel- che Klassen wie„Name“,„Pseudonym“,„Ausweisnummer“;„Zugriffszertifikat für Raum R“,„Zugriffszertifikat für Gerät G“,„Zugriffszertifikat für Gebäude GB“,„Alter“ repräsentieren. Jedes Token kann ein oder mehreren Klassen zugeordnet sein. Fer- ner können Kombinationen von Token als eigenständige Token wiederum ein oder mehreren weiteren Klassen zugeordnet sein.

Die empfangenen Datensätze werden unter Verwendung eines dokumentorientier- ten Datenmodell abgespeichert. Beispielsweise werden alle Feldwerte der abge- speicherten Datensätze als Token in einen mehrdimensionalen Schlüssel/Wert- Speicher (Key/Value-Store) bzw. Key-Value-Datenbanken übertragen. Dabei wer- den die Token Tokentypen zugeordnet und in einer Form gespeichert, welche die sechste Normalform erfüllt.

Nach Ausführungsformen werden zusätzlich Transaktionszeit und Gültigkeitszeit der Datensätze bitemporal gespeichert. Die Transaktionszeit gibt den Zeitpunkt an, zu dem eine Änderung eines Datenobjekt in der Datenbank erfolgt. Die Gültigkeitszeit gibt einen Zeitpunkt oder Zeitraum an, in dem ein Datenobjekt im modellierten Abbild der realen Welt den beschriebenen Zustand aufweist. Sind sowohl Gültig- keits- als auch Transaktionszeit relevant, spricht man von bitemporal.

Ein Schlüssel-Werte-Datenmodell ermöglicht ein Speichern, Abrufen und Verwalten von assoziativen Datenfeldern. Dabei werden Werte (Value) über einen Schlüssel (Key) eindeutig identifiziert.

In einem dokumentenorientierte Datenmodell, auch bekannt als Dokumentenspei- cher (Document Store), bilden Dokumente bzw. Datencontainer die Grundeinheit zur Speicherung der Daten bilden. Ein dokumentenorientiertes Datenmodell ermög- licht es dokumentenorientierten Informationen, auch bekannt als halbstrukturierte Daten, zu speichern, abzurufen und zu verwalten. Auf einem dokumentenorientier- ten Datenmodell beruhende Datenbanken gehören zu den NoSQL-Datenbanken und bilden eine Unterklasse der Schlüssel-Wert-Speicher (Key-value Stores). In ei- nem Schlüssel-Wert-Speicher werden die Daten als für die Datenbank inhärent un- durchsichtig angesehen, während eine dokumentenorientierte Datenbank auf in- terne Strukturen in den gespeicherten Dokumenten angewiesen ist, um Metadaten zu extrahieren. Das semistrukturierte Datenmodell ist ein Datenbankmodell, bei dem keine Trennung zwischen den Daten und dem Schema besteht und der Umfang der verwendeten Struktur vom Verwendungszweck der Datenbank abhängt. Jedes Do- kument innerhalb des Datenmodells wird über einen eindeutigen Identifikator ange- sprochen.

Eine Kombination der verschiedenen Datenbankkonzepten ermöglicht es Daten- sätze als Dokumente bzw. Container zu speichern (document störe) und zusätzlich in Form eines Index, z.B. eines Schlüssel-Wert-Speichers, in die 6. Normalform zu überführen. Dieser Schlüssel-Wert-Speicher repräsentiert den gesamten Datenum- fang in dem Dokumentenspeicher, während die Originaldatensätze erhalten bleiben.

Nach Ausführungsformen werden Selektionen ausschließlich in dem Schlüssel- Wert-Speicher in der redundanzfreien sechsten Normalform durchgeführt. Erst das Ergebnis wird aus den Containern des Dokumentenspeicher gelesen. Nach Ausführungsformen wird neben Lese- und Schreibrechten in den Datensätzen zu- sätzlich ein Selektionsrecht auf dem Schlüssel-Wert-Speicher implementiert. Somit kann auch auf dem Index alleine gearbeitet werden, ohne die zugrundeliegenden Daten auslesen zu müssen.

Die vorgeschlagene Multi-Modell-Datenbank stellt somit neben einer schemalosen Datenablage auf Basis eines Dokumentenspeichers eine vollständige Normalisie- rung des gesamten Datenumfangs in der sechsten Normalform bereit. Ausführungs- formen können den Vorteil haben, dass der Index Datenelemente der Datensätze, d.h. Token, als Schlüssel umfasst und jedem dieser Schlüssel jeweils ein oder meh- rere Zeiger als Werte zugeordnet sind, welche anzeigen, in welchen Datensätzen und/oder Feldern der Datensätze der entsprechende Schlüssel, d.h. Token/Daten- wert, als Feldwert gespeichert ist.

Dieser Index bildet daher über alle Felder der Datensätze und deren Inhalte, d.h. die Feldwerte, die gesamte Datenbank mit allen von ihr umfassten Datensätze ab, so dass alle Abfragen in dem Index behandelt und die schemalos gespeicherten Daten des dokumentenorientierten Datenmodells nur zur Ausgabe der Suchergebnisse verwendet werden. Die geringe Größe des Index im Vergleich zu den schemalosen Daten ermöglicht schnelle Abfragen in beliebigen Abfragekombinationen.

Unter einem Computer bzw. Computersystem wird hier ein Gerät verstanden, wel- ches mittels programmierbarer Rechenvorschriften Daten verarbeitet. Unter einem Programm bzw. Programminstruktionen wird hier ohne Einschränkung jede Art von Computerprogramm verstanden, welches maschinenlesbare Instruktionen zur Steu- erung einer Funktionalität eines Computers umfasst. Ein Computer bzw. Computer- system kann eine Kommunikationsschnittstelle zur Verbindung mit dem Netzwerk umfassen, wobei es sich bei dem Netzwerk um ein privates oder öffentliches Netz- werk handeln kann, insbesondere das Internet oder ein anderes Kommunikations- netz. Je nach Ausführungsform kann diese Verbindung auch über ein Mobilfunknetz hergestellt werden. Bei einem Computersystem kann es sich um ein stationäres Computersystem, wie beispielsweise einen Personalcomputer (PC) oder einen in einer Client-Server-Um- gebung eingebundenen Client bzw. Server handeln. Ferner kann es sich bei einem Computersystem beispielsweise um ein mobiles Telekommunikationsgerät, insbe- sondere ein Smartphone, einen tragbaren Computer, wie zum Beispiel einen Laptop PC oder Palmtop-PC, ein Tablet PC, einen Personal Digital Assistant oder derglei- chen handeln.

Bei einem entsprechenden Computersystem kann es auch um einen Gegenstand des Internets der Dinge („smart device“), z.B. um ein sog.„wearable“ bzw.

„wearable Computer“ handeln, d.h. tragbare elektronische Geräte bzw. tragbare Computersysteme, welche während der Anwendung am Körper des Nutzers ange- ordnet sind. Beispiele für Wearables sind Smartwatches, d.h. Uhren mit Computer- funktionalität und -konnektivität, Activity Tracker, d.h. Gerät zur Aufzeichnung und Versendung fitness- und/oder gesundheitsrelevanter Daten, Smartglasses, d.h. Bril- len, deren Innenseiten als Bildschirm dienen, oder Kleidungsstücke, in die elektroni- sche Hilfsmittel zur Kommunikation eingearbeitet sind.

Nach weiteren Ausführungsformen kann es sich bei einem Computersystem um ein Computersystem eines Fortbewegungsmittels, wie etwa ein Auto, Flugzeug, Schiff oder Zug mit Bordcomputer, handeln.

Nach weiteren Ausführungsformen kann es sich bei einem Computersystem um ei- nen Steuercomputer eines Smarthome-Systems, ein Access Point oder Router ei- nes lokales WLAN-Netzwerks, ein Multimediagerät mit Computerfunktionalität und - konnektivität, wie etwa ein Smart-TV, ein Steuersystem einer Schließanlage oder ein„smart device“ bzw. intelligenter Gegenstände, d.h. ein informationstechnisch aufgerüstete Alltagsgegenstände, welcher einen Mehrwert durch sensorgestützte Informationsverarbeitung und Kommunikation erhält.

Unter einem Speicher werden hier sowohl flüchtige als auch nicht flüchtige elektro- nische Speicher bzw. digitale Speichermedien verstanden. Unter einem nichtflüchtigen Speicher wird hier ein elektronischer Speicher zur dau- erhaften Speicherung von Daten verstanden. Ein nichtflüchtiger Speicher kann als nichtänderbarer Speicher konfiguriert sein, der auch als Read-Only Memory (ROM) bezeichnet wird, oder als änderbarer Speicher, der auch als Non-Volatile Memory (NVM) bezeichnet wird. Insbesondere kann es sich hierbei um ein EEPROM, bei- spielsweise ein Flash-EEPROM, kurz als Flash bezeichnet, handeln. Ein nichtflüch- tiger Speicher zeichnet sich dadurch aus, dass die darauf gespeicherten Daten auch nach Abschalten der Energieversorgung erhalten bleiben.

Unter einem flüchtigen elektronischen Speicher wird hier ein Speicher zur vorüber- gehenden Speicherung von Daten, welcher dadurch gekennzeichnet ist, dass alle Daten nach dem Abschalten der Energieversorgung verloren gehe. Insbesondere kann es sich hierbei um einen flüchtigen Direktzugriffsspeicher, der auch als Ran- dom-Access Memory (RAM) bezeichnet wird, oder einen flüchtigen Arbeitsspeicher des Prozessors handeln.

Unter einem Prozessor wird hier und im Folgenden eine Logikschaltung verstanden, die zur Ausführung von Programminstruktionen dient. Die Logikschaltung kann auf einem oder mehreren diskreten Bauelementen implementiert sein, insbesondere auf einem Chip. Insbesondere wird unter einem Prozessor ein Mikroprozessor oder ein Mikroprozessorsystem aus mehreren Prozessorkernen und/oder mehreren Mikro- prozessoren verstanden.

Nach Ausführungsformen erfolgt , falls eines der zusätzlichen Token nicht von dem Index umfasst ist, das Ergänzen des entsprechenden zusätzlichen Tokens unter seinen Klassenzuordnungen in dem Index, und, falls eine der Klassenzuordnungen eines von dem Index umfassten zusätzlichen Tokens von dem Index nicht umfasst ist, erfolgt ein Ergänzen der entsprechenden Klassenzuordnung mit dem entspre- chenden zusätzlichen Token in dem Index und Verknüpfen des entsprechenden zu- sätzlichen Tokens in dem Index mit dem Zeiger auf den zusätzlichen in dem doku- mentenorientierten Datenmodell gespeicherten Datensatz. Für solche Token des zusätzlichen Datensatzes, welche der Index bereits umfasst, für welche aber ein oder mehrere unter Verwendung des zusätzlichen Datensatzes ermittelte Klassenzuordnungen von dem Index noch nicht berücksichtigt werden, werden die entsprechenden Klassenzuordnungen ergänzt. Zusätzlich wird in dem Index für diese Token jeweils der Zeiger auf den zusätzlichen Datensatz ergänzt.

Schließlich wird für solche Token des zusätzlichen Datensatzes, welche der Index bereits mit all ihren für den zusätzlichen Datensatz ermittelten Klassenzuordnungen umfasst, lediglich der Zeiger auf den zusätzlichen Datensatz ergänzt.

Ausführungsformen können den Vorteil haben, dass stets sichergestellt werden kann, dass der Index alle von den Datensätzen der entsprechenden Einzeldaten- bank umfassten Token aufweist. Zudem umfasst der Index für alle entsprechenden Token alle aufgefundenen Klassenzuordnungen. Zudem ist jeder der Token des In- dex mit Zeiger auf alle Datensätze der der entsprechenden Einzeldatenbank ver- knüpft, welche das entsprechende Token umfassen.

Beispielsweise wird im Zuge des Vortrainierens des Lernmodus eine initiale Menge von vorbestimmten Trigger-Definitionen festgelegt. Im Zuge eines Erfassens von Daten, werden Datensätze empfangen und in dem dokumentenbasierten Datenmo- dell gespeichert. Die gespeicherten Datensätze werden tokenisiert und für die resul- tierenden Token werden Klassen-Zuordnungen unter Verwendung der initial festge- legten Trigger-Definitionen ermittelt und ein initialer Index für die resultierenden To- ken erzeugt. Nach Ausführungsformen umfasst der initiale Index alle von den Trig- ger-Definitionen umfassten Trigger als Token. Nach alternativen Ausführungsfor- men werden durch die Trigger-Definitionen als Trigger festgelegte Token in dem In- dex nur unter der Voraussetzung ergänzt, dass sie von einem der Datensätze um- fasst sind.

Eine Zuordnung eines Token zu einer Klasse unter Verwendung einer vorbestimm- ten Trigger-Funktion stellt ein durch die entsprechende vorbestimmten Trigger- Funktion gesichertes Faktum dar. Für Token, bei welchen es sich um keinen Trigger handelt und welche von keiner der Trigger-Definitionen erfasst werden, fehlt es an einem solchen Faktenwissen. Die entsprechenden Token werden vielmehr als un- bekannte Daten der Auffangklasse zugeordnet. Ausführungsformen können somit den Vorteil haben, dass unter Verwendung von initial festgelegten Trigger-Definitio- nen neue Daten in bekannte Daten, d.h. Trigger oder unter Verwendung von Trig- ger-Definitionen klassifizierter Token, und unbekannte Daten eingeteilt werden kön- nen, d.h. der Auffangklasse zugeordnete Token.

Nach Ausführungsformen werden die Kombinationen aus zweiten zusätzlichen To- ken mit ein oder mehreren der identifizierten Trigger, welche eine Klassenzuord- nung gemäß einer der Trigger-Definitionen getriggert haben, in dem Index als klas- sifizierte Kombinationen gekennzeichnet und Klassenzuordnungen werden nur für Kombinationen aus zweiten zusätzlichen Token und ein oder mehreren identifizier- ten Triggern ausgeführt, welche nicht als klassifizierte Kombinationen gekennzeich- net sind.

Ausführungsformen können den Vorteil haben, dass für alle Token-Kombinationen, für welche bereits bei einer Klassenzuordnung berücksichtigt wurden bzw. für wel- che bereits eine Klassenzuordnung ausgeführt wurde, in dem Index jeweils als be- reits klassifiziert gekennzeichnet werden. Somit lässt sich vermeiden, dass für To- ken-Kombinationen, welche das Lernmodul bereits zuvor gesehen und im Zuge der Klassifizierungen vollständig berücksichtigt hat, dieselben Klassifizierungen erneut ausgeführt. Somit kann das System deutlich effizienter ausgestaltet werden. Bei- spielsweise umfasst der Index neben elementaren Token alle Token-Kombinatio- nen, für welche bereits eine Klassifizierung erfolgt ist, d.h. alle Token-Kombinatio- nen, welche als klassifiziert zu kennzeichnen sind. Nach Ausführungsformen sind die entsprechenden Token-Kombinationen in dem Index jeweils mit einem Flag ver- sehen, welches anzeigt, ob es sich bei der entsprechenden Token-Kombinationen um klassifizierte Token-Kombinationen handelt. Nach Ausführungsformen erfolgt auf eine Tokenisierung eines zusätzlichen Daten- satzes hin zunächst ein Abgleich mit allen als bereits klassifiziert gekennzeichneten Token-Kombinationen. Für diese Token-Kombinationen wird die Klassifizierung nicht wiederholt, vielmehr erfolgt lediglich eine Verknüpfung mit dem Zeiger auf den zusätzlichen Datensatz. Nach Ausführungsformen wird der entsprechende Zeiger auch mit allen von der Token-Kombination umfassten Token in dem Index ver- knüpft. Nach Ausführungsformen erfolgt der Abgleich zunächst mit den größten, d.h. umfangreichsten, Token-Kombinationen des Index. Für alle bereits als klassifiziert erkannten Token-Kombinationen des zusätzlichen Datensatzes wird lediglich der Zeiger auf den entsprechenden Datensatz in der Quelldatenbank abgespeichert. Nach Ausführungsformen wird der entsprechende Zeiger auch mit allen von der To- ken-Kombination umfassten Token in dem Index verknüpft. Somit kann das Einar- beiten der Daten des zusätzlichen Datensatzes in den Index deutlich beschleunigt werden. Nach Ausführungsformen erfolgt sukzessive ein Abgleich mit weiteren To- ken-Kombination, wobei die Größe bzw. der Umfang der verwendeten weiteren To- ken-Kombinationen sukzessive abnimmt. Nach Ausführungsformen werden nur sol- che weiteren Token-Kombinationen mit geringerer Größe bzw. Umfang berücksich- tigt, welche nicht als Teil einer größeren bzw. umfangreichem Token-Kombinationen eine Übereinstimmung im Zuge des Abgleichs festgestellt wurde. Ausführungsfor- men können den Vorteil haben, dass für umfangreiche Token-Kombinationen, wel- che als bereits klassifiziert erkannt werden, kein zusätzlicher Abgleich für von der entsprechenden Token-Kombination umfasste Unterkombinationen erfolgt. Vielmehr erfolgt ein entsprechender Abgleich lediglich, wenn die entsprechende Unterkombi- nation in dem zusätzlichen Datensatz unabhängige von der entsprechenden um- fangreicheren Token-Kombination als eigenständige Token-Kombination umfasst ist.

Nach Ausführungsformen umfasst das Verfahren ferner:

• Identifizieren von ein oder mehreren Trigger-Kombinationen, welche jeweils von zumindest einem der Datensätzen umfasst sind und ein Kombinationskri- terium erfüllen, • für jede der identifizierten Trigger-Kombinationen Kombinieren der Trigger-De- finitionen der Trigger der entsprechenden Trigger-Kombinationen zu ein oder mehreren zusätzlichen kombinierten Trigger-Definitionen,

• Ergänzen der Mehrzahl von vorbestimmten Trigger-Definitionen des Lernmo- duls durch die ein oder mehreren zusätzlichen kombinierten Trigger-Definitio- nen.

Ausführungsformen können den Vorteil haben, dass basierend auf den von den initi- alen Trigger-Definitionen identifizierten Triggern zusätzliche Trigger in Form von Trigger-Kombinationen identifiziert werden können. Basierend auf diesen identifi- zierten Trigger-Kombinationen können aus den initialen Trigger-Definitionen kombi- nierte Trigger-Definitionen bestimmt werden, mit denen die Mehrzahl der vorbe- stimmten Trigger-Definitionen erweitert werden kann.

Nach Ausführungsformen werden mehrere Token-Kombinationen, welche von dem- selben Datensatz umfasst werden und unter die kombinierte Trigger-Definition fal- len, miteinander kombiniert und die resultierende Kombination in dem Index als eine klassifizierte Kombination gekennzeichnet. Ausführungsformen können den Vorteil haben, dass auch auf Basis kombinierte Trigger-Definitionen Token-Kombinationen im Index als klassifizierte Kombinationen gekennzeichnet und dadurch unnötige Wiederholungen von Klassifizierungen bereits klassifizierter Token-Kombinationen vermieden werden können.

Nach Ausführungsformen umfasst das Kombinationskriterium eine Mindesthäufig- keit für ein Auftreten der entsprechenden Trigger-Kombination in den Datensätzen. Ausführungsformen können den Vorteil haben, dass entsprechende Trigger-Kombi- nationen nur dann herangezogen werden zum Bilden einer kombinierten Trigger- Definition, wenn die entsprechende Trigger-Kombination in den Datensätzen mit ei- ner Mindesthäufigkeit auftreten. Somit kann verhindert werden, dass zusätzliche kombinierte Trigger-Definition gebildet werden aufgrund eines zufälligen Auftretens von Triggern unterschiedlicher Trigger-Definitionen in ein und demselben Daten- satz. Ein solches zufälliges Auftreten ist ab einer bestimmten Größe und/oder Komplexität der Datensätze zu erwarten, ohne dass daraus Rückschlüsse auf einen zugrundeliegenden Zusammenhang zwischen den Triggern geschlossen werden könnte. Treten die entsprechenden Trigger-Kombinationen jedoch häufiger auf, so kann daraus auf einen Zusammenhang geschlossen werden.

Nach Ausführungsformen legt die Mindesthäufigkeit einen absoluten Häufigkeits- wert des Auftretens in den Datensätzen fest. Bei der entsprechenden Mindesthäu- figkeit kann es sich um einen Mindestwert für das Auftreten der entsprechenden Trigger-Kombination in allen Datensätzen handeln. Das Auftreten der entsprechen- den Trigger-Kombination wird über alle Datensätze aufsummiert. Ist die resultie- rende Summe größer oder gleich dem Mindestwert, so ist dieser erfüllt. Ferner kann es sich dabei der Mindesthäufigkeit um eine Mindestwert für das Auftreten in einem der Datensätze handeln. Das Auftreten der entsprechenden Trigger-Kombination wird für die einzelnen Datensätze jeweils individuell aufsummiert. Erfüllt ein der re- sultierenden Summen den Mindestwert, so liegt die Mindesthäufigkeit vor. Nach al- ternativen Ausführungsformen muss der Mindestwert von einer vorbestimmten An- zahl von Datensätzen oder einem vorbestimmten Prozentsatz der Datensätze erfüllt werden. Bei dem entsprechenden vorbestimmten Prozentsatz handelt es sich ent- weder um einen Prozentsatz aller Datensätze der Datenbank oder aller Datensätze, welche die entsprechende Trigger-Kombination umfassen. Nach alternativen Aus- führungsformen muss der Mindestwert von allen Datensätzen erfüllt werden und/o- der von allen Datensätzen, welche die entsprechende Trigger-Kombination umfas- sen. Ferner kann sich bei der entsprechenden Mindesthäufigkeit um einen Mindest- wert für eine Durchschnittshäufigkeit des Auftretens der entsprechenden Trigger- Kombination in allen Datensätzen der Datenbank oder allen Datensätzen, welche die entsprechende Trigger-Kombination umfassen, handeln.

Nach Ausführungsformen legt die Mindesthäufigkeit einen relativen Häufigkeitswert des Auftretens in den Datensätzen fest. Nach Ausführungsformen ist die entspre- chenden Mindesthäufigkeit abhängig von der Anzahl der Datensätze und/oder der Anzahl der Token und/oder der Größe der von den Datensätzen umfassten Daten. Beispielsweise wächst der von der Mindesthäufigkeit festgelegte Häufigkeitswert mit der Anzahl der Datensätze und/oder der Anzahl der Token und/oder der Größe der von den Datensätzen umfassten Daten.

Nach Ausführungsformen legt die Mindesthäufigkeit einen relativen Häufigkeitswert des Auftretens in den Datensätzen fest relativ zu Häufigkeiten des Auftretens von ein oder mehreren der von der entsprechenden Trigger-Kombination umfassten Triggern in den Datensätzen. Beispielsweise ist der relative Häufigkeitswert von dem Auftreten des Triggers mit der höchsten Häufigkeit eines Auftretens, des Trig- ger mit der geringsten Häufigkeit eines Auftretens und/oder einem Durchschnitts- wert des Auftretens aller Trigger der entsprechenden Trigger-Kombination abhän- gig. Ausführungsformen können den Vorteil haben, dass bei einer Berücksichtigung eines relativen Häufigkeitswerts die Häufigkeit des Auftretens von ein oder mehre- ren der von der entsprechenden Trigger-Kombination umfassten Triggern in den Entscheidungsprozess, ob auf Basis der entsprechenden Trigger-Kombination eine zusätzliche kombinierte Trigger-Definition zu ergänzen ist, mit einfließt. Die Häufig- keit des Auftretens der entsprechenden Trigger kann sich wie zuvor im Fall des ab- soluten Häufigkeitswerts auf ein Auftreten der entsprechenden Trigger in allen Da- tensätzen, auf ein durchschnittliches Auftreten in allen Datensätzen, auf ein häufigs- tes Auftreten in einem der Datensätze und/oder auf ein minimales Auftreten in ei- nem der Datensätze beziehen.

Ausführungsformen können den Vorteil haben, dass der relative Häufigkeitswert umso höher gewählt wird, umso höher die Häufigkeiten des Auftretens des ein oder der mehreren entsprechenden von der Trigger-Kombination umfassten Trigger ist. Somit kann vermieden werden, dass eine Trigger-Definition auf der Basis einer Trig- ger-Kombination erzeugt wird, deren Auftreten zufällig ist, d.h. deren Trigger zufällig von demselben Datensatz umfasst sind, ohne dass dies einen Zusammenhang der entsprechenden Trigger anzeigt.

Nach Ausführungsformen umfasst das Kombinationskriterium ein oder mehrere Be- dingungen an relative Positionen der Trigger der entsprechenden Trigger-Kombina- tion zueinander innerhalb eines der Datensätze. Ausführungsformen können den Vorteil haben, dass für das Kombinationskriterium eine relative Position der Trigger der entsprechenden Trigger-Kombination innerhalb des Datensatzes berücksichtigt wird. Eine entsprechende relative Position von Daten innerhalb von Datensätzen re- sultiert aus bzw. ist abhängig von Kontextzusammenhängen. Mithin lassen sich ent- sprechende Kontextzusammenhänge aus der relativen Position ablesen. Abhängig von der Art der von den Datensätzen umfassten Daten kann es sich bei der relati- ven Position um eine relative Position in einer eindimensionalen, d.h. sequenziellen, Datenstruktur, wie beispielsweise einer Text- oder Sprachdatei, einer zweidimensio- nalen Datenstruktur, wie beispielsweise einer Bilddatei, oder einer höher dimensio- nalen, beispielsweise dreidimensionalen oder n-dimensionalen, Datenstruktur han- deln.

Nach Ausführungsformen umfassen die Trigger-Definitionen jeweils eine Definition einer Trigger-Struktur, welche für ein oder mehrere von der entsprechenden Trig- ger-Definition umfasste Trigger und ein oder mehrere gemäß der entsprechenden Trigger-Definition einer der Klassen zuzuordnende Token relative Positionen zuei- nander festlegt.

Ausführungsformen können den Vorteil haben, dass eine entsprechende Trigger- Definition anhand ein oder mehrerer Trigger definiert, wie ein oder mehrere Token zu klassifizieren sind in Abhängigkeit von einer relativen Position der entsprechen- den Token zu den entsprechenden Triggern. Je nach Art der von den Datensätzen umfassten Datenstrukturen kann es sich bei der entsprechenden relativen Position um eine relative Position in einem eindimensionalen, zweidimensionalen oder höher dimensionalen, beispielsweise dreidimensionalen oder n-dimensionalen, Datenraum handeln.

Nach Ausführungsformen umfassen die Festlegungen der relativen Positionen zu- mindest eine der folgenden Festlegungen: die ein oder mehreren zuzuordnenden Token sind nach einem von der entsprechenden Trigger-Definition umfassten Trig- ger angeordnet, die ein oder mehreren zuzuordnenden Token sind vor einem von der entsprechenden Trigger-Definition umfassten Trigger angeordnet, die ein oder mehreren zuzuordnenden Token sind jeweils zwischen von der entsprechenden Trigger-Definition umfassten Triggern angeordnet.

Ein Trigger kann beispielsweise eine Klassifikation vorangehendender Daten trig- gern, z.B.„[davor1 ] [Trigger1 ]“. In diesem Fall triggert das Auftreten des Triggers „Trigger1“ eine Klassifikation der vorangehenden Daten„davor1“. Nach Ausfüh- rungsformen ist der Trigger selbst Bestandteil der Klassifikation, d.h. klassifiziert wird die Kombination„[davor1 ] [Trigger1 ]“. Nach Ausführungsformen wird der Trig- ger„Trigger1“, wenn er erkannt wird, als Trigger der entsprechenden Trigger-Defini- tion zugeordnet.

Ein Trigger kann beispielsweise eine Klassifikation nachfolgender Daten triggern, z.B. ,,[Trigger2] [danach1 ]“. In diesem Fall triggert das Auftreten des Triggers„Trig- ger2“ eine Klassifikation der nachfolgenden Daten„danach1“. Nach Ausführungsfor- men ist der Trigger selbst Bestandteil der Klassifikation, d.h. klassifiziert wird die Kombination ,,[Trigger2] [danach1 ]“. Nach Ausführungsformen wird der Trigger„Trig- ger2“, wenn er erkannt wird, als Trigger der entsprechenden Trigger-Definition zu- geordnet.

Ein Trigger kann beispielsweise eine Klassifikation vorangehender und nachfolgen- der Daten triggern, z.B. ,,[davor2] [Trigger3] [danach2]“. In diesem Fall triggert das Auftreten des Triggers„Trigger3“ eine Klassifikation der vorangehendenden Daten „davor2“ sowie der nachfolgenden Daten„danach2“. Nach Ausführungsformen ist der Trigger selbst Bestandteil der Klassifikation, d.h. klassifiziert wird die Kombina- tion ,,[davor2] [Trigger3] [danach2]“. Nach Ausführungsformen wird der Trigger„Trig- gers“, wenn er erkannt wird, als Trigger der entsprechenden Trigger-Definition zu- geordnet.

Eine Kombination aus zwei oder mehr Trigger kann beispielsweise eine Klassifika- tion vorangehender, nachfolgender sowie zwischen den Triggern angeordneter Da- ten triggern, z.B. ,,[davor3] [Trigger4] [dazwischen1 ] [Trigger5] [danach3]“. In diesem Fall triggert das Auftreten der Kombination aus den Triggern„Trigger4“ und „Trigger5“ eine Klassifikation der vorangehendenden Daten„davor3“, der nachfol- genden Daten„danach3“ sowie der dazwischenstehenden Daten„dazwischen 1“. Nach Ausführungsformen sind die Trigger selbst Bestandteil der Klassifikation, d.h. klassifiziert wird die gesamte Kombination ,,[davor3] [Trigger4] [dazwischen1] [Trig- ger5] [danach3]“. Nach Ausführungsformen werden die Trigger„Trigger4“ und„Trig- ger5“, wenn er erkannt wird, als Trigger der entsprechenden Trigger-Definition zu- geordnet.

Nach Ausführungsformen kann eine Trigger-Kombination eine beliebige Anzahl an Triggern umfassen, z.B. ,,[davor4] [Trigger6] [dazwischen2] [Trigger7] [...] [Trig- ger6+N] [dazwischen2+N] [Trigger6+(N+1 )] [danach4]“. In diesem Fall triggert das Auftreten der Kombination aus den Triggern„Trigger6“ bis„Trigger6+(N+1 )“ eine Klassifikation der vorangehendenden Daten„davor4“, der nachfolgenden Daten„da- nach4“ sowie der dazwischenstehenden Daten„dazwischen2“ bis„dazwi- schen2+N“. Nach Ausführungsformen sind die Trigger selbst Bestandteil der Klassi- fikation, d.h. klassifiziert wird die gesamte Kombination ,,[davor4] [Trigger6] [dazwi- schen2] [Trigger7] [...] [Trigger6+N] [dazwischen2+N] [Trigger6+(N+1 )] [danach4]“. Nach Ausführungsformen werden die Trigger„Trigger6“ bis„Trigger6+(N+1 )“, wenn er erkannt wird, als Trigger der entsprechenden Trigger-Definition zugeordnet.

Im Falle einer Textdatei kann eine beispielhafte Trigger-Definition wie folgt ausse- hen:„[Identität] [Trigger1 = darf über] [Identität] [Trigger2 = und] [Identität]". Bei der Formulierung„darf über" handelt es sich um einen ersten Trigger [Trigger1] und bei der Formulierung„und" um einen zweiten Trigger [Trigger2] Die Struktur entspricht also einer Struktur der Form [davor] [Trigger1 ] [dazwischen] [Trigger2] [danach]. In diesem Fall werden vorangehenden Daten [davor] als eine Identität klassifiziert, ebenso werden dazwischenstehende Daten [dazwischen] sowie nachfolgende Da- ten [danach] jeweils als Identitäten klassifiziert.

Ein weiteres Beispiel ist:„[Trigger = Der Kunde trägt den Schaden,] [Bedingung]".

Bei der Formulierung„Der Kunde trägt den Schaden," handelt es sich um einen Trigger [Trigger]. Die Struktur entspricht mithin der Struktur [Trigger] [danach]. In diesem Fall werden die nachfolgenden Daten [danach] als eine Bedingung klassifi- ziert.

Ein weiteres Beispiel ist:„[Trigger1 = zwischen] [Identität] [Trigger2 = und] [Identi- tät]". Bei der Formulierung„zwischen" handelt es sich um einen ersten Trigger [Trig- gerl ] und bei der Formulierung„und" um einen zweiten Trigger [Trigger2]. Die Struktur entspricht mithin der Form [Trigger1 ] [dazwischen] [Trigger2] [danach]. Um- fasst ein Datensatz beispielsweise die Formulierung:„Die Geschäftsbeziehung zwi- schen dem Kunden und der Bank [...]", so werden die Token„zwischen“ und„und“ als Trigger identifiziert. Anhand dieser Trigger-Kombination werden die dazwischen- stehenden Token„dem Kunden“ als Identität klassifiziert, ebenso wie die nachfol- genden Token„der Bank“. Für die vorangehenden Token„Die Geschäftsbeziehung“ wird durch die Trigger keine Klassifikation getriggert. Mithin werden die vorangehen- den Token als unbekannte Daten der Auffangklasse klassifiziert.

Nach Ausführungsformen kann eine Trigger-Definition festlegen, dass ein Token, welches sich innerhalb eines Radius um einen bestimmten Trigger in einem n-di- mensionalen Datenraum befindet, einer bestimmten Klasse zuzuordnen ist. Nach Ausführungsformen kann neben dem Abstand des Tokens von dem Trigger zudem maßgeblich für die Klassenzuordnung sein, in welcher Raumrichtung der Token von dem Trigger entsprechend beanstandet ist. Dies kann beispielsweise durch einen Vektor definiert werden, welche die relative Position des Tokens zu dem Trigger de- finiert. Nach Ausführungsformen kann eine Trigger-Definition festlegen, dass ein To- ken, welches innerhalb einer Mehrzahl von Radien um jeweils einen Trigger einer Mehrzahl von Trigger angeordnet ist, einer bestimmten Klasse zuzuordnen ist. Hier- bei überschneiden sich die von den einzelnen Radien begrenzten n-dimensionalen Bereiche und begrenzen einen n-dimensionalen oder niedriger dimensionalen Schnittbereich in dem n-dimensionalen Datenraum. Ein Token, welches Bestandteil dieses n-dimensionalen oder niedriger dimensionalen Schnittbereich ist, wird bei- spielsweise einer bestimmten Klasse zugeordnet. Nach Ausführungsformen ist für die Trigger gemäß den Trigger-Definitionen jeweils ein maximaler Trigger-Abstand festgelegt, welcher einen maximalen Abstand relativ zu dem entsprechenden Trigger definiert, auf welche eine Trigger-Wirkung des Trig- gers beschränkt ist.

Ausführungsformen können den Vorteil haben, dass es sich bei dem entsprechen- den maximalen Abstand um einen Radius um den entsprechenden Trigger in einem n-dimensionalen Datenraum handelt. Im Falle eines eindimensionalen Datenraums beschränkt sich die Trigger-Wirkung auf den entsprechenden maximalen Trigger- Abstand vor und hinter dem entsprechenden Trigger. Im Fall eines zweidimensiona- len Datenraums beschränkt sich die Trigger-Wirkung auf eine zweidimensionale Kreisfläche um den entsprechenden Trigger herum. Im Falle eines dreidimensiona- len Datenraums beschränkt sich die Trigger-Wirkung auf ein Kugelvolumen um den entsprechenden Trigger herum. Im Falle eines n-dimensionalen Datenraums be- schränkt sich die Trigger-Wirkung auf ein Volumen einer n-dimensionalen Kugel um den entsprechenden Trigger herum.

Nach Ausführungsformen kann der maximale Abstand von der Raumrichtung ab- hängen und in unterschiedlichen Raumrichtungen unterschiedlich groß festgelegt sein.

Nach Ausführungsformen ist der maximale Trigger-Abstand für alle Trigger iden- tisch. Nach Ausführungsformen ist der maximale Trigger-Abstand für eine Teil- menge der Trigger identisch. Nach Ausführungsformen ist der maximale Trigger-Ab- stand für jeden Trigger jeweils individuell bestimmt. Bei dem entsprechenden maxi- malen Trigger-Abstand kann es sich je nach Art der Daten um einen Abstand in ei- ner bestimmten Einheit handeln. Beispielsweise handelt es sich bei einer zeitlichen sequenziellen Abfolge um einen zeitlichen Abstand gemessen in einer zeitlichen Einheit, wie etwa Millisekunden, Sekunden oder Minuten. Beispielsweise handelt es sich bei einem eindimensionalen, zweidimensionalen oder dreidimensionalen räum- lichen Datenstruktur um einen räumlichen Abstand in einer räumlichen Einheit, wie etwa Millimeter, Zentimeter, Dezimeter oder Meter. Im Falle von Bild- oder Videodaten kann der Abstand beispielsweise auf Pixel oder Voxel beruhen. Somit kann es sich bei einem entsprechenden Abstand beispielsweise um eine Pixelzahl oder eine Voxelzahl handeln.

Nach Ausführungsformen handelt es sich bei dem Abstand um einen logischen Ab- stand. Dieser kann beispielsweise auf elementaren Datenelementen beruhen, wie beispielsweise Elementarzeichen. Somit kann es sich bei einem entsprechenden Abstand beispielsweise um eine Zeichenzahl handeln. Ferner kann es sich bei dem entsprechenden Abstand um eine Anzahl aus elementaren Datenelementen um zu- sammengesetzte Elemente handeln, wie beispielsweise einer Wortanzahl. Bei- spielsweise ist die Anzahl auf eine bestimmte Wortart beschränkt. Ferner kann der Abstand durch logische Elemente in der Datenstruktur begrenzt werden, wie bei- spielsweise ein Interpunktionszeichen und/oder einen Trigger.

Nach Ausführungsformen umfasst das Verfahren ferner:

• Ergänzen des vortrainierten Lernmoduls um ein oder mehrere zusätzliche Trig- ger-Definitionen, welche zusätzliche Trigger für ein Ersetzen von Zuordnungen von Token in dem Index zu der Auffangklasse durch Zuordnungen zu ein oder mehreren Klassen einer zweiten Gruppe von Klassen im Zuge eines Reklassi- fizierens definieren,

• Reklassifizieren von ein oder mehreren der Auffangklasse zugeordneten To- ken in dem Index, welche die zusätzlichen Trigger-Definitionen als zusätzliche Trigger definierten, wobei das Reklassifizieren durch das Lernmodul ein Erset- zen der Zuordnung zu der Auffangklasse durch eine Zuordnung zu der ent- sprechen zusätzlichen Trigger-Definition umfasst, welche das entsprechende Token als zusätzlichen Trigger umfasst,

• Verwenden der zusätzlichen Trigger zum Reklassifizieren von ein oder mehre- ren der Auffangklasse zugeordneten Token in dem Index zu ein oder mehre- ren Klassen der zweiten Gruppe von Klassen durch das Lernmodul, falls die entsprechenden der Auffangklasse zugeordneten Token von einem der Da- tensätze in einer Kombination mit ein oder mehreren der zusätzlichen Triggern umfasst sind und die entsprechenden zusätzlichen Trigger gemäß der entsprechenden zusätzlichen Trigger-Definition eine entsprechende Zuord- nung zu den ein oder mehreren Klassen der zweiten Gruppe von Klassen trig- gern.

Ausführungsformen können den Vorteil haben, dass durch das Ergänzen des Lern- moduls um zusätzliche Trigger-Definitionen die Anzahl der Token, welche der Auf- fangklasse zugeordnet sind, reduziert werden kann. Zusätzliche Trigger-Definitionen können gezielt ergänzt werden, um solche Token zu reklassifizieren, welche der Auffangklasse zugeordnet sind. Mithin kann das Ergänzen zusätzlicher Trigger-Defi- nitionen in Abhängigkeit von den Datensätzen, welche die entsprechende Einzelda- tenbank umfasst, und den von diesen umfassten unbekannten Daten erfolgen.

Beispielsweise werden zusätzliche Trigger-Definitionen ergänzt, bis alle Token der Auffangklasse reklassifiziert sind. Nach Ausführungsformen werden entsprechende zusätzliche Trigger-Definitionen nach vordefinierten Intervallen ergänzt. Entspre- chende vordefinierte Intervalle sind beispielsweise zeitlich definiert, basierend auf der Anzahl der von der Auffangklasse umfassten Token, der in der entsprechenden Einzeldatenbank gespeicherten Datenmenge und/oder der zu der entsprechenden Einzeldatenbank seit der letzten Ergänzung hinzugefügten Datenmenge.

Nach Ausführungsformen umfasst die zweite Gruppe von den Klassen der ersten Gruppe verschiedene Klassen. Ausführungsformen können den Vorteil haben, dass zusätzliche Klassen definiert werden, sodass solche die Token der Auffangklasse klassifiziert werden können, für welche die Meta- bzw. Kontextinformationen ent- sprechend den Klassen der ersten Gruppe nicht anwendbar sind. Vielmehr können durch die Klassen der zweiten Gruppe zusätzliche Meta- bzw. Kontextinformationen definiert und verwendet werden.

Nach Ausführungsformen sind ein oder mehrere Klassen der zweiten Gruppe je- weils identisch mit einer der Klassen der ersten Gruppe. Ausführungsformen kön- nen den Vorteil haben, dass durch die zusätzlichen Trigger-Definitionen Trigger bereitgestellt werden, welche eine Zuordnung der Token der Auffangklasse zu Klas- sen der ersten Gruppe von Klassen ermöglichen.

Nach Ausführungsformen sind die zu ergänzenden Trigger-Definitionen als Ergän- zungen jeweils von einer von dem Lernmodul bereits umfassten Trigger-Definition abhängig. Ausführungsformen können den Vorteil haben, dass ein oder mehrere der ergänzenden Trigger-Definitionen in Form von Ergänzungen zu den bereits um- fassten Trigger-Definitionen des Lernmoduls definiert werden. Die entsprechenden ergänzenden Trigger-Definitionen erweitern beispielsweise die Trigger-Wirkung be- reits bestehender Trigger-Definitionen. Nach Ausführungsformen bilden die ergän- zenden Trigger-Definitionen mit den bereits bestehender Trigger-Definitionen kom- binierte Trigger-Definitionen.

Nach Ausführungsformen werden die Ergänzungen einem rekursiven Schema fol- gend wiederholt ausgeführt, wobei die zu ergänzenden Trigger-Definitionen jeder Rekursionsstufe jeweils Ergänzungen einer Trigger-Definition einer vorangehenden Rekursionsstufe umfassen, sodass die rekursiven Ergänzungen Baumstrukturen bil- den, welche jeweils eine der vorbestimmten Trigger-Definition als Wurzelknoten um- fassen.

Ausführungsformen können den Vorteil haben, dass die Trigger-Wirkung der beste- henden Trigger-Definitionen sukzessive durch ein fortschreitendes Rekursions- schema erweitert werden, bis alle Token der Auffangklasse reklassifiziert sind. Das Ergebnis der entsprechenden Ergänzungen der bereits bestehenden Trigger-Funkti- onen können beispielsweise Baumstrukturen sein, denen folgend eine Klassifikation von Token implementiert werden kann.

Nach Ausführungsformen werden die zu ergänzenden zusätzlichen Trigger-Definiti- onen von dem Lernmodul empfangen. Ausführungsformen können den Vorteil ha- ben, dass die entsprechenden Trigger-Definitionen beispielsweise von außen, etwa durch einen Administrator, bereitgestellt werden können. Mithin hat der entsprechende Administrator stets die Möglichkeit, die Klassifikation zu steuern, zu korrigieren und zu ergänzen.

Nach Ausführungsformen kann erfolgt optional oder fakultativ ein externes Feinjus- tieren, beispielsweise durch einen Administrator, erfolgen. Hierbei werden nach Ausführungsformen unter Verwendung zusätzliche Trigger-Definitionen aus der Klasse der unbekannten Daten, d.h. der Auffangklasse, Token extrahiert und beste- henden Klassen zugeordnet und/oder es werden neue Klassen generiert, denen extrahierte Token zugordnet werden. Ein Administrator stellt beispielsweise für die in der Auffangklasse als unbekannte Daten klassifizierten Token anlog zu den initia- len bereitgestellten Trigger-Definitionen zusätzliche Trigger-Definitionen bereit, wel- che auf die Auffangklasse angewandt werden. Nach Ausführungsformen werden die zusätzlichen Trigger gemäß den zusätzlichen Trigger-Definitionen ausschließlich auf die Auffangklasse angewendet sowie auf zukünftig empfangene Daten. Nach Ausführungsformen kann die Anwendung eines zusätzlichen Triggers als IF- Bedingung realisiert werden. Wurde beispielsweise auf einen Datensatz bereits ein anderer Trigger erfolgreich angewendet, z.B. ein Trigger1 , und der Datensatz um- fasst zudem als unbekannt klassifizierte Daten, wo wird ein zusätzlicher Trigger, z.B. ein Trigger2, gemäß einer der zusätzlichen Trigger-Definitionen angewendete.

Dieses Feinjustieren kann als eine Rekursion mehrmals wiederholt werden. Bei- spielsweise wird die Rekursion solange fortgesetzt, bis Die Auffangklasse keine To- ken mehr umfasst, d.h. keine unbekannten Daten mehr existieren, oder die von der Auffangklasse umfasste Token-Anzahl einen vordefinierten Schwellenwert erreicht und/oder unterschreitet, d.h. eine vordefinierte Maximalzahl. Bei dem entsprechen- den Schwellenwert kann es sich um einen absoluten Wert handeln, welcher von der Anzahl der von dem Index umfassten Token und der von der entsprechenden Ein- zeldatenbank umfassten Datenmenge unabhängig ist. Alternativ kann es sich bei dem entsprechenden Schwellenwert um einen relativen Wert handeln, welcher von der Anzahl der von dem Index umfassten Token und/oder der von der entsprechen- den Einzeldatenbank umfassten Datenmenge abhängig ist Auf diese Weise können Trigger-Bäume bzw. Entscheidungsbäume hinter den initial definierten Trigger bzw. Trigger-Definitionen entstehen, wobei die Anzahl der Ebe- nen von der Anzahl der Rekursionen N abhängt, z.B. ist die Anzahl der Ebenen gleich N+1. Beispielsweise bildet jeder initiale Trigger bzw. jede initiale Trigger-Defi- nitionen einen Wurzelpunkt eines entsprechenden Trigger-Baums bzw. Entschei- dungsbaum. Unter einem Entscheidungsbäumen werden hier geordnete, gerichtete Bäume verstanden, die der Darstellung von Entscheidungsregeln dienen. Umfasst ein Datensatz einen initialen Trigger, wodurch ein Teil der Token des Datensatzes klassifiziert werden kann, ohne dass dadurch zugleich alle Token des Datensatzes klassifiziert werden können, so wird geprüft, ob der Datensatz zudem einen Trigger der ersten Rekursion umfasst. Falls der Datensatz einen Trigger der ersten Re- kursion umfasst, wodurch ein weiterer Teil der Token des Datensatzes klassifiziert werden kann, ohne dass dadurch zugleich alle Daten des Datensatzes klassifiziert werden können, so wird geprüft, ob der Datensatz zudem einen Trigger der zweiten Rekursion umfasst und so fort.

Nach Ausführungsformen werden die zu ergänzenden zusätzlichen Trigger-Definiti- onen von dem Lernmodul erstellt, welches ein statistisches Modell umfasst, wobei das statistische Modell zu einer statistischen Analyse der von der Auffangklassen umfassten Token und deren Vorkommen in den Datensätze verwendet wird, wobei das Ergebnis der statistischen Analyse zum Erstellen der zu ergänzenden zusätzli- chen Trigger-Definitionen verwendet wird.

Ausführungsformen können den Vorteil haben, dass das Lernmodul selbstständig ergänzende zusätzliche Trigger-Definitionen erstellen kann. Beispielsweise erfolgt das zuvor beschriebene optionale oder fakultative Feinjustieren unter Verwendung des statistischen Modells. Durch ein Verwenden eines statistischen Modells kann die zuvor beschriebene menschliche Handlung eines Administrators ersetzt und/o- der verbessert werden. Nach Ausführungsformen identifiziert das statistische Mo- dell, z.B. durch Häufigkeitsanalysen und Korrelationsanalysen, Trigger innerhalb der unbekannten Daten, welche dann analog zu dem zuvor beschriebenen Vorgehen auf die als unbekannt klassifizierten Token angewendet werden. Nach Ausführungsformen kann zudem ein rekursives Vorgehen unter Verwendung des statistischen Modells erfolgen.

Nach Ausführungsformen umfasst das Verfahren ferner:

• Empfang einer korrigierten Trigger-Definition zum Ersetzen einer der gespei- cherten Trigger-Definitionen des Lernmoduls,

• Ersetzen der entsprechenden gespeicherten Trigger-Definition durch die korri- gierte Trigger-Definition,

• Reklassifizieren der unter Verwendung der entsprechenden gespeicherten Trigger-Definition klassifizierten Token, wobei das Reklassifizieren unter Ver- wendung der korrigierten Trigger-Definition erfolgt.

Nach Ausführungsformen kann beispielweise ein Administrator Fehler in klassifizier- ten Klassen erkennen und gegebenenfalls korrigieren, etwa indem er eine korrigier- ten Trigger-Definition, anhand derer ein Reklassifizieren von Token erfolgt. Ausfüh- rungsformen können den Vorteil haben, dass eine Korrektur von Trigger-Definitio- nen zu jedem Zeitpunkt des Verfahrens ermöglicht wird. Beispielsweise kann eine Überprüfung der Trigger-Definitionen nach dem Training des Lernmoduls erfolgen. Werden Korrektur-Trigger-Definitionen identifiziert, so werden entsprechend korri- gierte Trigger-Definitionen bereitgestellt.

Ausführungsformen können den Vorteil haben, dass korrigierte Trigger-Definitionen auch zu einem späteren Zeitpunkt bereitgestellt werden können, wenn Fehlklassifi- kationen erkannt werden. Ein administratives Eingreifen in den Lern- und Klassifizie- rungsprozess ist somit zu jedem Zeitpunkt möglich. Dadurch können Fehler des ler- nenden Systems behoben werden, ohne dass das komplette Modell umgebaut wer- den muss.

Nach Ausführungsformen verweisen die Zeiger, mit denen die Token in dem Index verknüpft gespeichert sind, jeweils auf ein oder mehrere der Feldwerte in den ge- speicherten Datensätze. Ausführungsformen können den Vorteil haben, dass eine feinere Granularität bei der Bestimmung des Ursprungs von Token in den Datensätzen erzielt werden kann. Eine solche feinere Granularität ermöglicht es zudem relative Beziehungen der To- ken innerhalb der Datensätze aufzuschlüsseln und bei einer Analyse oder sonstigen Verwendung des Index zu berücksichtigen.

Nach Ausführungsformen umfassen die Feldwerte des zusätzlichen Datensatzes Textdaten, Bilddaten, Audiodaten und/oder Videodaten. Nach Ausführungsformen ist das Verfahren beispielsweise anwendbar zur Signalverarbeitung, wie etwa 1 D- Audioerkennung, 2D- und 3D-Bildverarbeitung, oder ND-Dateninput von N Senso- ren etc. Ferner ist das Verfahren beispielsweise anwendbar bei einer Analyse von Stream-Daten (Bitstream bzw. Bitstrom). Ein Bitstream, auch als Bitstrom bekannt, bezeichnet hier eine Folge von Bits, die einen Informationsfluss repräsentieren, d.h. ein serielles bzw. sequentielles Signal. Ein Bitstrom ist somit eine Sequenz von Bits von unbestimmter Länge in zeitlicher Abfolge. Ein Bitstrom stellt beispielsweise ei- nen in logische Strukturen gegliedert Datenstromes dar, der sich in grundlegendere Kleinstrukturen wie Symbole fester Größe, d.h. Bits und Bytes, und weiter in Blöcke und Datenpakete unterschiedlicher Protokolle und Formate gliedern kann.

Nach Ausführungsformen umfasst das Erzeugen der Token ein Anwenden einer To- kenisierungslogik auf die Feldwerte des zusätzlichen Datensatzes, welche einen Volltextindizierer umfasst, der dazu konfiguriert ist, Texte in Wörter zu zerlegen und die Wörter als Token auszugeben. Ausführungsformen können den Vorteil haben, dass eine effektive Tokenisierung von Texten bzw. Textdateien implementiert wer- den kann. Bei entsprechenden Textdateien kann es sich um beliebige Texte han- delnden. Beispielsweise kann es sich bei entsprechenden Textdateien um Mess- wertdateien oder Algorithmen zum Steuern von Computern und/oder technischen Anlagen handeln. Nach Ausführungsformen umfassen die Feldwerte des zusätzli- chen Datensatzes Volltexte, wobei die Volltexte aus Buchstaben eines oder mehre- rer Alphabete gebildete Wörter und/oder ein oder mehrere Zahlen umfassen. Eine Volltextindizierung beinhaltet eine Zerlegung von Texten in einzelne Wörter, wobei dann die einzelnen Wörter eines Textfeldes in einem diesem Feld zugeordne- ten Index gespeichert werden. Volltextindexierung wird nur unterstützt, wenn das entsprechende Feld zur selektiven Speicherung eines bestimmten Datentyps, z.B. CFIAR, VARCFIAR oder TEXT, konfiguriert ist. Beispielsweise kann in einem Feld natürlichsprachlicher Text im JSON Format gespeichert sein.

Nach Ausführungsformen umfasst das Erzeugen der Token ein Anwenden einer To- kenisierungslogik auf die Feldwerte des zusätzlichen Datensatzes, welche einen ge- nerischen Tokenisierer umfasst, der dazu konfiguriert ist, in den Feldwerten Daten unterschiedlichen Datentyps zu erkennen und aus diesen Token in unterschiedli- chen Datentypen zu erzeugen. Ausführungsformen können den Vorteil haben, dass eine effektive Tokenisierung für unterschiedliche Datentypen implementiert werden kann, wie etwa Textdaten, Bilddaten, Audiodaten und/oder Videodaten.

Nach Ausführungsformen umfasst das Verfahren ferner:

• Empfangen eines von einer dritten Einzeldatenbank als zusätzlicher Quellda- tenbank erzeugten weiteren Ergänzungsdatensatzes durch die erste Einzelda- tenbank über das Netzwerk, wobei der weitere Ergänzungsdatensatz in einem Index der zusätzlichen Quelldatenbank vorgenommenen Ergänzungen um- fasst,

• Integrieren des weiteren Ergänzungsdatensatzes in den Index der ersten Ein- zeldatenbank, wobei das Integrieren ein Ergänzen des entsprechenden Index umfasst, bei welchem

o ein Abgleichen von Token des weiteren Ergänzungsdatensatzes mit dem Index der Quelldatenbank,

o falls eines der Token des weiteren Ergänzungsdatensatzes nicht von dem Index der Quelldatenbank umfasst ist, Ergänzen des entsprechenden To- kens in dem Index der Quelldatenbank und Verknüpfen des entsprechen- den Tokens in dem Index mit einem Zeiger auf den in einem dokumenten- orientierten Datenmodell der zusätzlichen Quelldatenbank gespeicherten Datensatz, aus welchem das entsprechende Token erzeugt wurde, o falls eines der Token des weiteren Ergänzungsdatensatzes von dem Index der Quelldatenbank umfasst ist, Verknüpfen des entsprechenden Tokens in dem Index der Quelldatenbank mit dem Zeiger auf den in einem doku- mentenorientierten Datenmodell der zusätzlichen Quelldatenbank gespei- cherten Datensatz, aus welchem das entsprechende Token erzeugt wurde.

Ausführungsformen können den Vorteil haben, dass auch der Index der Quelldaten- bank durch Ergänzungsdatensätze anderer Einzeldatenbanken erweitert werden kann. Bei der dritten Einzeldatenbank handelt es sich beispielsweise um eine Ein- zeldatenbank, welche wiederum Ergänzungsdatensätze der Quelldatenbank emp- fängt. Somit können Änderungen der Indexe zwischen Einzeldatenbanken gegen- seitig ausgetaucht und einheitliche Kopien eines datenbankübergreifenden Index auf einem verteilten Datenbanksystem, genauer gesagt in den Einzeldatenbanken implementiert werden.

Nach Ausführungsformen umfasst das Verfahren ferner:

• Empfangen einer Suchanfrage durch erste Einzeldatenbank, wobei die Such- anfrage einen oder mehrere Suchwerte beinhaltet,

• Durchsuchen des Index der ersten Einzeldatenbank nach dem Suchwert,

• Identifizieren ein oder mehrerer Token innerhalb des Index, welche mit einem oder mehreren der Suchwerte übereinstimmen,

• Zurückgeben einer Antwort auf die Suchanfrage, wobei die Antwort zumindest umfasst: eine Angabe über die identifizierten Token, ein oder mehrere durch Analysieren von Zeigern, mit denen die identifizierte Token verknüpft sind, be- stimmten Datensätze oder ein oder mehreren Referenzen auf die bestimmten Datensätze.

Ausführungsformen können den Vorteil haben, dass der Index für effektive Suchen verwendet werden kann. Dabei können sich die Suchen auf Informationen des In- dex beschränken, etwa in wie vielen oder in welchen Datensätzen ein bestimmter Suchwert vorkommt. Hierfür ist nach Ausführungsformen eine Indexzugriffs- Berechtigung notwendig. Ferner kann so auch eine Suche auf den Datensätzen der lokalen, d.h. die Suche ausführenden, Einzeldatenbank erfolgen, obwohl die Da- tensätzen in ihrer ursprünglichen Form gespeichert sind. Hierfür ist nach Ausfüh- rungsformen eine Lesezugriffs-Berechtigung notwendig. Flandelt es sich um Da- tensätze, welche auf einer anderen Einzeldatenbank gespeichert sind, so können diese explizit zum Lesen angefragt werden. Hierfür ist nach Ausführungsformen wiederum eine Lesezugriffs-Berechtigung notwendig.

Im Fall des Lernmoduls, kann dieses beispielsweise unter Verwendung entspre- chender Suchanfragen Muster und/oder Gesetzmäßigkeiten innerhalb der Datens- ätze suchen.

Nach Ausführungsformen speichert der Index sämtliche aus den Feldwerten der Da- tensätze einer entsprechenden Einzeldatenbank erzeugte Token so, dass der Index jedes Token nur einmal enthält. Jedes Token beinhaltet Zeiger auf ein oder mehrere der Datensätze, aus deren Feldwerten es erzeugt wurde. Wenn ein erfindungsge- mäß erzeugter Index also nach einem bestimmten Suchwert durchsucht wird und als Ergebnis der Suche ein in dem Index gespeichertes Token identifiziert wird, wel- ches identisch ist mit dem Suchwert, so verweist dieses Token mittels Zeigern auf sämtliche Datensätze, die dieses Token zumindest einmal in zumindest einem ihrer Feldwerte enthalten und die bei der Erstellung des Index herangezogen wurden. Die Datensätze, die also einen„Treffer“ im Hinblick auf den Suchwert darstellen, können anhand der Verweise sehr schnell identifiziert und zurückgegeben werden, ohne dass ein sequenzieller Suchlauf über sämtliche Datensätze notwendig wäre.

Nach Ausführungsformen umfasst der Suchwert ferner eine Klassenzuordnung und das Identifizieren des Tokens innerhalb des Index erfordert ferner, dass das identifi- zierte Token dieselbe Klassenzuordnung aufweist. Ausführungsformen könne den Vorteil haben, dass Klassenzuordnungen und dadurch mit den Klassenzuordnungen indexierte Meta- bzw. Kontextinformationen in den Suchanfragen berücksichtigt werden können. Nach Ausführungsformen sind Trigger in dem Index mit einem Flag gekennzeichnet. Nach Ausführungsformen umfasst der Suchwert ferner eine Zuordnung zu einer Trigger-Definition und/oder ein einen Trigger kennzeichnendes Flag und das Identi- fizieren des Tokens innerhalb des Index erfordert ferner, dass das identifizierte To- ken derselben Trigger-Definition zugeordnet ist und/oder dasselbe Flag aufweist.

Nach Ausführungsformen werden Token, welche der Auffangklasse zugeordnet sind, von der Suche ausgeschlossen. Ausführungsformen können den Vorteil ha- ben, dass die resultierenden Suchergebnisse ein hohes Maß an Zuverlässigkeit auf- weisen, da unbekannte Daten von der Suche ausgeschlossen sind.

Nach Ausführungsformen umfasst das Verfahren ferner das Vortrainieren des Lern- moduls. Das Vortrainieren umfasst:

• Empfangen der Mehrzahl von vorbestimmten Trigger-Definitionen durch das Lernmodul, welche die Trigger für das Zuordnen von Token zu den Klassen der ersten Gruppe von Klassen definieren,

• Speichern der empfangenen Mehrzahl von vorbestimmten Trigger-Definitionen durch das Lernmodul.

Nach Ausführungsformen werden durch die vorbestimmten Trigger-Definitionen ini- tial Trigger definiert, die dazu verwendet werden empfangene Daten zu strukturieren bzw. klassifizieren. Nach Ausführungsformen werden, bevor Daten in die Quellda- tenbank geladen werden, die initialen Trigger konkret definiert, d.h. vorbestimmten Trigger-Definitionen vorgegeben. Werden Daten geladen, so ermöglichen diese initi- alen Trigger eine erste Klassifizierung nach bekannten Klassen sowie unbekannten Daten, welche der Auffangklasse zugeordnet werden.

Nach Ausführungsformen umfasst das Vortrainieren ferner:

• Extrahieren der Trigger aus der gespeicherten Mehrzahl von vorbestimmten Trigger-Definitionen durch das Lernmodul,

• Zuordnen der initialen Token durch das Lernmodul jeweils zu der Trigger-Defi- nition, welche das entsprechende initiale Token als Trigger umfasst, • Erzeugen des durchsuchbaren Index unter Verwendung der Mehrzahl von initi- alen Token durch das Multi-Modell-Datenbankmanagementsystem in dem wei- teren Datenmodell, wobei der erzeugte Index die initialen Token umfasst, wo- bei jedes der initialen Token in dem Index jeweils eine Zuordnung aufweist zu der Trigger-Definition, welche das entsprechende initiale Token als Trigger umfasst.

Nach der Definition der Trigger, werden Daten, z.B. Textdaten, Audiodaten, Bildda- ten, Videodaten oder N-Dimensionale Daten von N Sensoren, in die Quelldatenbank geladen und die Trigger angewandt, um die Daten automatisch zu klassifizieren. Dadurch entsteht eine Fragmentierung der Daten in Trigger, bekannte Klassen, d.h. durch die Trigger-Definitionen definieret Klassen, und in unbekannte Daten.

Ausführungsformen können den Vorteil haben, dass das Lernmodul auf diese Weise effektiv vortrainiert werden kann auf Basis der vorbestimmten Trigger-Defini- tionen.

Dieses vorbestimmten Trigger-Definitionen können als Grundlage für ein Erlangen weiterer Trigger-Definitionen dienen, etwa durch ein Kombinieren von Trigger-Defi- nitionen. Es erfolgt beispielsweise eine automatische Lernphase des Datenbanksys- tems bzw. des Lernmoduls, welche ein Kombinieren von der initialen Triggern um- fasst. Somit können die initial geladenen Trigger wie zuvor beschrieben basierend auf den von den Datensätzen umfassten Daten kombiniert und damit die Anzahl an zur Verfügung stehenden Trigger-Definitionen erhöht werden. Zudem kann ein Kennzeichnen von bereits klassifizierten Token-Kombination erfolgen. Dies dient dem Zweck, dass identische Daten die später in die Quelldatenbank geladen wer- den, nicht erneut klassifiziert werden müssen, sondern in dem System bereits als „bekannt" markiert sind.

Nach Ausführungsformen umfasst das Erzeugen eines der zusätzlichen Token ein Verwenden eines der Feldwerte des zusätzlichen Datensatzes in seiner Gesamtheit als das entsprechende zusätzliche Token. Es ist durchaus möglich, dass der Index auch Token aus Feldern beinhaltet, auf die keine Tokenisierung angewandt wird bzw. deren Inhalt sich schlichtweg nicht in einzelne Token aufteilen lässt. Nach Aus- führungsformen umfasst das Erzeugen eines der zusätzlichen Token ein Aufteilen eines der zusätzlichen Feldwerte des zusätzlichen Datensatzes in eine Mehrzahl von Teilfeldwerten und eine Verwenden eines der Teilfeldwerte als das entspre- chende zusätzliche Token. Ausführungsformen können den Vorteil haben, dass die Granularität der verwendeten Daten bzw. der Tokenisierung unabhängig von der Granularität der Felder angepasst werden kann.

Nach Ausführungsformen speichert der Index sämtliche aus den Feldwerten der ge- speicherten Datensätze erzeugten Token so, dass der Index jedes Token für jede der Token-Zuordnungen des entsprechenden Tokens genau einmal enthält.

Nach Ausführungsformen können die Token, die Klassen-Zuordnungen und die Zu- ordnung zu den Trigger-Definitionen in Form von Relationen oder äquivalenten Strukturen gespeichert sein. Unter einer Relation wird hier im Sinn der relationalen Datenbanktheorie eine Menge von Tupel. Ein Tupel ist eine Menge von Attributwer- ten. Ein Attribut bezeichnet einen Datentyp bzw. eine ein oder mehreren Daten zu- geordnete Eigenschaft. Dabei bestimmt die Anzahl der Attribute den Grad, die An- zahl der Tupel die Kardinalität einer Relation.

Nach Ausführungsformen handelt es sich zumindest bei dem von dem Multi-Modell- Datenbankmanagementsystem zum Speichern der Datensätze verwendeten doku- mentenbasierten Datenmodellen um ein NoSQL-Datenmodellen. Nach Ausfüh- rungsformen handelt es sich bei dem DBMS um ein NoSQL-DBMS. Dies kann vor- teilhaft sein, dass da sich herausgestellt hat, dass insbesondere NoSQL-DBMS, die oftmals eine flexiblere Struktur aufweisen als klassische SQL-basierte DBMSs. Auf- grund der Flexibilität ihrer Struktur eignen in sich NoSQL-DBMSs also ganz beson- ders für die Verwaltung und Speicherung von Datensätzen, aus welchen ein Index gemäß Ausführungsformen der Erfindung erstellt werden kann. Nach Ausführungsformen weist der Index die Struktur eines Baums auf, insbeson- dere eines B⁺-Baums. Ausführungsformen können den Vorteil haben, dass eine Baumstruktur insbesondere die Struktur eines B⁺-Baums, eine besonders effiziente und schnelle Suche nach den in dem Index gespeicherten Token ermöglicht. Unter einem B⁺-Baum wird eine Daten- und/oder Indexstruktur, welche eine Erweiterung eines B-Baumes darstellt. Bei einem B⁺-Baum werden die eigentlichen Datenele- mente nur in den Blattknoten gespeichert, während die inneren Knoten lediglich Schlüssel enthalten.

Nach Ausführungsformen umfassen mehrerer der in einem dokumentenorientierten Datenmodell gespeicherten Datensätze jeweils eine unterschiedliche Anzahl an Fel- der. Ausführungsformen können den Vorteil haben, dass Datensätze unterschiedli- cher Größen und Strukturierung bzw. Granularität verarbeitet werden können.

Nach Ausführungsformen weisen die Felder jeweils ein gemeinsames, generisches Datenformat auf. Ausführungsformen können den Vorteil haben, dass, da in einem bestimmten Feld eine große Anzahl an unterschiedlichen Datentypen gespeichert werden können. Ein Nutzer bzw. ein Applikationsprogramm, welches Datensätze in der Quelldatenbank speichern will, muss sich also nicht um die Konsistenz und Pas- sung von Datentypen kümmern. Mithin wird kann ein hoher Grad an Flexibilität be- züglich der Struktur und des Umfangs der Datensätze, die von dem Multi-Modell- Datenbankmanagementsystem verwaltet und gespeichert werden können, geboten werden.

Nach Ausführungsformen ist das Lernmodul bzw. das von diesem implementierte maschinelle Lernen konfiguriert für eine Datenextraktion, Konsistenzprüfung, Bilder- kennung, Spracherkennung, Sprachsteuerung, Vorrichtungsüberwachung und/oder autonome Vorrichtungssteuerung. Dies kann beispielsweise bereits in der Klassifi- zierung der Token bestehen, wobei der Auffangklasse als unbekannte Daten zuge- ordnete Token beispielsweise als ein Hinweis etwa auf eine potentielle Fehlfunktion betrachtet werden. Beispielsweise kann dies auf dem Index mit den Token und de- ren Meta- bzw. Kontextinformationen beruhen, welche als Grundlage für einen darauf angewandten zusätzlichen Algorithmus zum maschinellen Lernen dienen. Nach Ausführungsformen wird hierzu die Auffangklasse durch ein Ergänzen zusätz- licher Trigger-Definitionen geleert, sodass zu allen Token des Datenbanksystems Meta- bzw. Kontextinformationen bereitgestellt werden.

Eine Datenextraktion kann beispielsweise ein Erkennen und Extrahieren eines Mus- ters in einer Text-, Bild-, Audio- oder Videodatei umfassen. Dieses Muster kann bei- spielsweise durch eine Trigger-Definition definiert sein oder in den klassifizierten Daten erfasst werden. Ein entsprechendes Muster kann beispielsweise ein vorbe- stimmtes in Form von Sensorwerten erfasstes Ereignis sein, etwa eine Person in ei- nem Wirkbereich einer Vorrichtung.

Eine Konsistenzprüfung kann beispielsweise eine Konsistenzprüfung in einer Text-, Bild-, Audio- oder Videodatei umfassen. Hierbei wird beispielsweise geprüft, ob die entsprechenden Daten unbekannte und damit inkonsistente Daten umfassen, von den restlichen Daten stark abweichende Daten oder als inkonsistent explizit vordefi- nierte Daten umfassen. Eine entsprechende Konsistenzprüfung kann beispielsweise zur Fehlerprüfung von Steuerungsalgorithmen von Vorrichtungen dienen, zur Fehl- funktionserkennung unter Verwendung von Messdaten einer Funktion einer Vorrich- tung oder zum Erkennen von Fehlern in Textdateien, etwa in Form einer Recht- schreibprüfung.

Eine Bilderkennung kann einem Erkennen von Gegenständen, Ereignissen oder Merkmalen in Bild- oder Videodateien dienen. Beispielsweise werden Kontextinfor- mationen zu dem visuell Dargestellten erfasst und/oder dargestellt. Dies kann bei- spielsweise eine visuelle Darstellung von Informationen, also die Ergänzung von Bil- dern oder Videos mit computergenerierten Zusatzinformationen oder virtuellen Ob- jekten mittels Einblendung/Überlagerung, umfassen. Ein solches Verfahren wird all- gemeine als erweiterter Realität oder Augmented Reality bezeichnet. Eine Spracherkennung kann einem Erkennen von Sprache in Audiodateien oder Vi- deodateien, etwa zur Sprachsteuerung oder zum Überführen von Sprache in Text- form, dienen.

Eine Mustererkennung in Text-, Bild-, Audio- oder Videodatei kann einer Vorrich- tungsüberwachung dienen. Insbesondere können so auftretende oder drohende Fehlfunktionen erkannt werden. Dies kann der Sicherheit dienen und ermöglicht eine vorausschauende Wartung (Predictiv Maintenance) der entsprechenden Vor- richtung, da potentielle Probleme frühzeitig erkannt werden können. Bei einer ent- sprechenden Textdatei handelt es sich beispielswiese um einen Datensatz mit Sen- sormesswerten. Basierend auf einer Vorrichtungsüberwachung kann zudem eine autonome Vorrichtungssteuerung implementiert werden, etwa eine autonome Steu- erung von Fahrzeugen, Robotern oder Industrieanlagen.

Unter einer„Vorrichtung“ wird hier allgemein eine technische Vorrichtung verstan- den mit Sensoren zur Erfassung von Zustandsdaten der Vorrichtung und einem Vor- richtungscomputersystem zum Protokollieren der erfassten Zustandsdaten. Die Vor- richtung kann auch in dem entsprechenden Computersystem mit Sensorik beste- hen. Beispielsweise handelt es sich bei den empfangenen Datensätzen um von ei- ner Vorrichtungscomputersystem unter Verwendung der Sensoren erfasste Daten- sätze. Computersystem zum maschinellen Lernen Eine Vorrichtung umfasst bei- spielsweise ein Fahrzeug, eine Anlage, wie etwa eine Produktionsanlage, eine Ver- arbeitungsanlage, eine Förderanlage, eine Energiegewinnungsanlage, eine Wärme- gewinnungsanlage, eine Steuerungsanlage, eine Überwachungsanlage, etc. sein.

Unter einem„Fahrzeug“ wird hier ein mobiles Verkehrsmittel verstanden. Ein sol- ches Verkehrsmittel kann beispielsweise dem Transport von Gütern (Güterverkehr), von Werkzeugen (Maschinen oder Hilfsmittel) oder Personen (Personenverkehr) dienen. Fahrzeuge umfassen insbesondere auch motorisierte Verkehrsmittel. Bei ei- nem Fahrzeug kann es sich beispielsweise um ein Landfahrzeug, ein Wasserfahr- zeug und/oder ein Luftfahrzeug handeln. Ein Landfahrzeug kann beispielsweise sein: ein Automobil, wie etwa ein Personenkraftwagen, Omnibus oder ein Lastkraftwagen, ein motorbetriebenes Zweirad, wie etwa ein Motorrad, Kleinkraft- rad, Motorroller oder Motorfahrrad, ein landwirtschaftlicher Traktor, Gabelstapler, Golfmobil, Autokran. Darüber hinaus kann es sich bei einem Landfahrzeug auch um ein Schienen gebundenes Fahrzeug handeln. Wasserfahrzeug kann beispielsweise sein: ein Schiff oder Boot. Ferner kann ein Luftfahrzeug beispielsweise sein: ein Flugzeug oder Hubschrauber. Unter einem Fahrzeug wird insbesondere auch ein Kraftfahrzeug verstanden.

Nach Ausführungsformen umfasst die Vorrichtung zumindest einen Sensor zum Er- fassen von Zustandsdaten der Vorrichtung. Die Zustandsdaten der Vorrichtung wer- den durch das Vorrichtungscomputersystem von dem zumindest einen Sensor emp- fangen. Nach Ausführungsformen umfasst die Vorrichtung eine Mehrzahl von Sen- soren zum Erfassen von Zustandsdaten der Vorrichtung. Ausführungsformen kön- nen den Vorteil haben, dass die vorrichtungseigene Sensorik genutzt werden kann, um den Zustand der Vorrichtung zu erfassen. Der Zustand der Vorrichtung kann beispielsweise beschrieben werden durch Angaben zu Kenngrößen des aktuellen Leistungsvermögens der Vorrichtung, wie etwa Kilometerstand bei einem Fahrzeug, Verbrauchswerte, Leistungswerte, Fehlermeldungen, Ergebnisse vordefinierter Prüf- protokolle und/oder Kennungen von Komponenten der Vorrichtung.

Kenngrößen des aktuellen Leistungsvermögens eines Fahrzeugs können zum Bei- spiel Drehzahl, Geschwindigkeit, Kraftstoffverbrauch, Abgaswerte, Getriebegang sein.

Unter einem„Sensor“ wird hier ein Element zum Erfassen von Messdaten verstan- den. Messdaten sind Daten, welche physikalische oder chemische Eigenschaften eines Messobjekts, wie beispielsweise Wärmemenge, Temperatur, Feuchtigkeit, Druck, Durchflussmenge, Schallfeldgrößen, Helligkeit, Beschleunigung, pH-Wert, lo- nenstärke, elektrochemisches Potential, und/oder dessen stoffliche Beschaffenheit qualitativ oder quantitativ wiedergeben. Messdaten werden mittels physikalischer o- der chemischer Effekte erfasst und in ein elektronisch weiterverarbeitbares elektri- sches Signal umgeformt. Ferner können Messdaten Zustände und/oder Zustandsänderung von elektronischen Geräten durch Außeneinflüsse und/oder in Folge einer Benutzung durch einen Nutzer wiedergeben.

Sensoren zum Erfassen von Zustandsdaten in einem Fahrzeug können beispiels- weise umfassen: Kurbelwellensensor, Nockenwellensensor, Luftmassenmesser, Lufttemperatursensor, Kühlwassertemperatursensor, Drosselklappensensor, Klopfsensor, Getriebesensor, Wegstreckensensor, Getriebesensor, Niveausensor, Bremsverschleißsensor, Achslastsensor, Lenkwinkelsensor. Diese Sensoren erfas- sen und überwachen das Fahrverhalten des Fahrzeugs. Aus Abweichungen von Sollwerten und/oder einem Auftreten von bestimmten Mustern lassen sich Fehlfunk- tionen erkennen und identifizieren. Teils lassen sich auch konkrete Fehlerursachen, wie ausgefallene Komponenten des Fahrzeugs, identifizieren. Sensoren können zu- dem auch Kennungen elektronischer Komponenten, die in das Fahrzeug eingebaut sind abfragen, um deren Identität zu prüfen.

Ausführungsformen umfassen ein Quellcomputersystem zum Implementieren eines datenbankübergreifenden Index auf einem verteilten Datenbanksystem, welches eine das Quellcomputersystem umfassende Mehrzahl von Computersystemen mit jeweils einer eigenständigen Einzeldatenbank umfasst, wobei die Computersysteme mit den Einzeldatenbanken über ein Netzwerk kommunikativ miteinander verbunden sind.

Die Computersysteme umfassen ferner jeweils ein oder mehrere Prozessoren, ein oder mehrere Datenspeichermedien, auf welchen die jeweilige Einzeldatenbank be- reitgestellt wird, eine Kommunikationsschnittstelle zur Kommunikation über das Netzwerk sowie eine Programmlogik umfassen.

Die Einzeldatenbanken werden jeweils von einem Multi-Modell-Datenbankmanage- mentsystem verwaltet, wobei die Einzeldatenbanken jeweils eine Mehrzahl daten- bankindividueller Datensätze umfassen, welche in einem dokumentenorientierten ersten Datenmodell der jeweiligen Einzeldatenbank gespeichert sind, wobei die ge- speicherten Datensätze jeweils ein oder mehreren Feldwerte umfassen, wobei die einzelnen Feldwerte der gespeicherten Datensätze jeweils in einem Feld gespei- chert sind.

Die Einzeldatenbanken umfassen ferner jeweils einen durchsuchbaren ersten Index, welcher in einem zweiten Datenmodell der jeweiligen Einzeldatenbank gespeichert ist, wobei der Index der jeweiligen Einzeldatenbank eine Mehrzahl von aus den Feldwerten der in dem dokumentenorientierten Datenmodell der entsprechenden Einzeldatenbank gespeicherten Datensätze erzeugten Token umfasst, wobei die Token in dem Index jeweils mit einem oder mehreren Zeigern auf ein oder mehrere der in dem dokumentenorientierten Datenmodell der entsprechenden Einzeldaten- bank gespeicherten Datensätze verknüpft ist, aus deren Feldwerten das entspre- chende Token erzeugt wurde.

Die Programmlogik des Quellcomputersystems ist zum Ausführen eines Verfahrens zum Implementieren eines datenbankübergreifenden Index konfiguriert, wobei das Verfahren umfasst:

• Empfangen eines zusätzlichen Datensatzes durch die Einzeldatenbank des Quellcomputersystems als Quelldatenbank zum Ergänzen von Datensätze der Quelldatenbank,

• Speichern des zusätzlichen Datensatzes, welcher ein oder mehrere zusätzli- che Feldwerte umfasst, durch ein erstes Multi-Modell-Datenbankmanagement- system der Quelldatenbank in einem dokumentenorientierten ersten Datenmo- dell der Quelldatenbank,

• Erstellen eines aus dem Anwenden der Datenverarbeitungsfunktion resultie- renden Ergänzungsdatensatzes, welcher die in dem Index der Quelldatenbank vorgenommenen Ergänzungen umfasst, zum Ergänzen zumindest eines zwei- ten Index zumindest einer weiteren Einzeldatenbank als Empfangsdatenbank, welche ein weiteres Computersystem des Datenbanksystems als Empfangs- computersystem umfassten,

• Senden des Ergänzungsdatensatzes durch das Quellcomputersystem über das Netzwerk an das Empfangscomputersystem zur Integration in den zweiten Index der Empfangsdatenbank.

Nach Ausführungsformen ist das Quellcomputersystem dazu konfiguriert eine oder mehrere der zuvor genannten Ausführungsformen des Verfahrens zum Implemen- tieren eines datenbankübergreifenden Index auf dem verteilten Datenbanksystem auszuführen.

Ausführungsformen umfassen ferner ein verteiltes Datenbanksystem zum Imple- mentieren eines datenbankübergreifenden Index auf dem verteilten Datenbanksys- tem, welches eine das Mehrzahl von Computersystemen mit jeweils einer eigen- ständigen Einzeldatenbank umfasst, wobei die Computersysteme mit den Einzelda- tenbanken über ein Netzwerk kommunikativ miteinander verbunden sind.

Die Computersysteme umfassen ferner jeweils ein oder mehrere Prozessoren, ein oder mehrere Datenspeichermedien, auf welchen die jeweilige Einzeldatenbank be- reitgestellt wird, eine Kommunikationsschnittstelle zur Kommunikation über das Netzwerk sowie eine Programm logik.

Die Einzeldatenbanken werden jeweils von einem Multi-Modell-Datenbankmanage- mentsystem verwaltet, wobei die Einzeldatenbanken jeweils eine Mehrzahl daten- bankindividueller Datensätze umfassen, welche in einem dokumentenorientierten ersten Datenmodell der jeweiligen Einzeldatenbank gespeichert sind, wobei die gespeicherten Datensätze jeweils ein oder mehreren Feldwerte umfassen, wobei die einzelnen Feldwerte der gespeicherten Datensätze jeweils in einem Feld gespei- chert sind.

Die Einzeldatenbanken umfassen ferner jeweils einen durchsuchbaren ersten Index, welcher in einem zweiten Datenmodell der jeweiligen Einzeldatenbank gespeichert ist, wobei der Index der jeweiligen Einzeldatenbank eine Mehrzahl von aus den Feldwerten der in dem dokumentenorientierten Datenmodell der entsprechenden Einzeldatenbank gespeicherten Datensätze erzeugten Token umfasst, wobei die Token in dem Index jeweils mit einem oder mehreren Zeigern auf ein oder mehrere der in dem dokumentenorientierten Datenmodell der entsprechenden Einzeldaten- bank gespeicherten Datensätze verknüpft ist, aus deren Feldwerten das entspre- chende Token erzeugt wurde,.

Die Programmlogik ist jeweils zum Ausführen eines Verfahrens zum Implementieren eines datenbankübergreifenden Index durch das die Programmlogik ausführende Computersystem der Mehrzahl von Computersystemen konfiguriert, welches als ein Quellcomputersystem fungiert, wobei das Verfahren umfasst:

• Anwenden einer Datenverarbeitungsfunktion der Quelldatenbank auf den zu- sätzlichen Datensatz, wobei die Datenverarbeitungsfunktion zumindest eine Indexierung des zusätzlichen Datensatzes zum Speichern in einem zweiten Datenmodell der Quelldatenbank umfasst, wobei die Indexierung umfasst: o Erzeugen von ein oder mehreren zusätzlichen Token aus den zusätzlichen Feldwerten durch die Quelldatenbank, o Ergänzen des Index der Quelldatenbank durch das erste Multi-Modell-Da- tenbankmanagementsystem unter Verwendung der zusätzlichen Token und eines Zeigers auf den zusätzlichen in dem dokumentenorientierten Datenmodell der Quelldatenbank gespeicherten Datensatz,

Nach Ausführungsformen ist das verteilte Datenbanksystem dazu konfiguriert eine oder mehrere der zuvor genannten Ausführungsformen des Verfahrens zum Imple- mentieren eines datenbankübergreifenden Index auf dem verteilten Datenbanksys- tem auszuführen.

Im Weiteren werden Ausführungsformen der Erfindung mit Bezugnahme auf die Zeichnungen näher erläutert. Es zeigen:

Figur 1 ein schematisches Blockdiagramm einer Ausführungsform eines

exemplarischen Computersystems,

Figuren 2 schematische Diagramme einer Ausführungsform eines exemplari- schen verteilten Datenbanksystems,

Figur 3 ein schematisches Diagramm einer Ausführungsform eines exemplari- schen verteilten Datenbanksystems,

Figur 4 ein schematisches Flussdiagramm eines exemplarischen Verfahrens, Figur 5 ein schematisches Flussdiagramm eines exemplarischen Verfahrens, Figur 6 ein schematisches Flussdiagramm eines exemplarischen Verfahrens, Figur 7 ein schematisches Flussdiagramm eines exemplarischen Verfahrens, Figur 8 ein schematisches Blockdiagramm von Ausführungsformen exemplari- scher Computersysteme,

Figur 9 ein schematisches Blockdiagramm einer exemplarischen Rechte- vergabe,

Figur 10 ein schematisches Blockdiagramm einer exemplarischen Implementie- rung eines Systems zur Rechtevergabe,

Figur 1 1 ein schematisches Blockdiagramm einer Ausführungsform eines

exemplarischen Computersystems,

Figur 12 ein schematisches Blockdiagramme einer exemplarischen Datenverar- beitung durch das Multi-Modell-Datenbankmanagementsystem,

Figur 13 ein schematisches Blockdiagramme einer exemplarischen Datenverar- beitung durch das Multi-Modell-Datenbankmanagementsystem,

Figur 14 ein schematisches Blockdiagramm von Ausführungsformen exemplari- scher Computersysteme,

Figur 15 ein Flussdiagramm einer Ausführungsform eines exemplarischen Ver- fahrens,

Figur 16 ein Flussdiagramm einer Ausführungsform eines exemplarischen Ver- fahrens,

Figur 17 ein Flussdiagramm einer Ausführungsform eines exemplarischen Ver- fahrens und

Figur 18 ein Flussdiagramm einer Ausführungsform eines exemplarischen Ver- fahrens.

Elemente der nachfolgenden Ausführungsformen, die einander entsprechen, werden mit denselben Bezugszeichen gekennzeichnet.

Figur 1 zeigt ein Blockdiagramm einer Ausführungsform eines exemplarischen Computersystems 100, welches eine Einzeldatenbank 104 zum Implementieren ei- nes datenbankübergreifenden Index auf einem verteilten Datenbanksystem 170 um- fasst. Das verteilte Datenbanksystem 170 umfasst eine Mehrzahl von Einzeldaten- bank 104, welche jeweils auf einem Computersystem 100 implementiert sind. Das Computersystems 100 umfasst ferner ein Multi-Modell- Datenbankmanagementsystem (MM-DBMS) 1 18, welches die, ggf. strukturierte, Speicherung von Daten in der zumindest einen Einzeldatenbank 104 verwaltet und alle lesenden und schreibenden Zugriffe auf die Einzeldatenbank 104 kontrolliert. Die MM-DBMS 1 18 unterstützt zumindest zwei Datenmodelle 106, 1 10, in welchen Daten in der Einzeldatenbank 104 gespeichert werden. Dabei legt das Datenbank- modell fest, in welcher Form die entsprechenden Daten organisiert, gespeichert und bearbeitet werden. Bei einem oder beiden Datenmodellen 106, 1 10 handelt es sich um NoSQL Datenmodelle. In dieser Hinsicht handelt es sich bei dem MM-DBMS 1 18 um ein NoSQL DBMS. Das erste Datenmodell 106 ist ein dokumentenbasiertes Datenmodell, in welchem eine Mehrzahl von Datensätzen DS1 , DS2, DS3 gespei- chert sind. Jeder Datensatz DS1 , DS2, DS3 wird in einem Dokument bzw. einem Datencontainer gespeichert. Den Datensätzen DS1 , DS2, DS3 selbst wird beim Speichern von dem dokumentenbasiertes Datenmodell 106 keine spezifische Struk- tur vorgegeben. Mithin können die Datensätzen DS1 , DS2, DS3 mit der internen Struktur gespeichert werden, mit welcher die Datensätzen DS1 , DS2, DS3 von der Einzeldatenbank 104 empfangen werden. Insofern handelt es sich bei den in dem dokumentenbasiertes Datenmodell 106 gespeicherten Datensätzen DS1 , DS2, DS3 um Rohdaten. Die Datensätze DS1 , DS2, DS3 können beispielsweise Textdaten, Bilddaten, Audiodaten und/oder Videodaten umfassen. Die Datensätze DS1 , DS2, DS3 umfassen jeweils zumindest ein Feld F1 , ... , F8, mit Feldwerten. Die Datens- ätze DS1 , DS2, DS3 können bereits eine innere Struktur mit einer Mehrzahl von Feldern F1 , ... , F8 aufweisen, wenn sie gespeichert werden. Dann umfassen die entsprechenden Datensätze DS1 , DS2, DS3 jeweils eine Mehrzahl von Feld F1 , ... , F8. Weisen die Datensätze DS1 , DS2, DS3 selbst bei ihrem Empfang keine Felder auf, so umfassen sie in gespeicherter Form jeweils beispielsweise genau ein Feld, welches den gesamten Datenumfang des entsprechenden Datensatzes DS1 , DS2, DS3 umfasst. Die Felder F1 , ... , F8 umfassen jeweils ein oder mehrere Feldwerte. Jeder der Feldwerte eines Datensatzes DS1 , DS2, DS3 ist in einem entsprechen- den Feld, einer Art Datencontainer, gespeichert. Jedes Feld F1 , ... , F8 kann einem Feldtyp zugewiesen sein. Dabei können die Felder F1 , ... , F8 unterschiedlichen o- der alle demselben Feldtyp zugewiesen sein. Die Zusammensetzung der Feldwerte der einzelnen Datensätze DS1 , DS2, DS3 kann sich dabei im Hinblick auf deren Feldtypen unterscheiden. Es ist auch möglich das einzelne Datensätze gar keine Felder eines bestimmten Feldtyps beinhalten. In anderen Ausführungsformen (hier nicht gezeigt) können auch mandatorische Feldtypen definiert sein, d.h. dass jedes Dokument ein Feld für jeden mandatorischen Feldtyp umfasst und optional ein oder mehrere weitere Felder für optionale Feldtypen umfasst. Die Daten der Datensätze werden dann in Feldern des für sie vorgesehenen Feldtyps gespeichert, d.h. z.B. Textdaten in einem oder mehreren Textfeldern, Bilddaten in einem oder mehreren Bildfeldern, Audiodaten in einem oder mehreren Audiofeldern und/oder Videodaten in einem oder mehreren Videofeldern.

Ferner umfasst das Computersystem 100 einen Tokenisierer 120 zum Erzeugen von Token 109. Nach alternativen Ausführungsformen kann auch das MM-DBMS 118 den Tokenisierer 122 umfassen.

Das Computersystem 100, z.B. das MM-DBMS 118, verfügt über eine eingebaute Programm logik bzw. Datenverarbeitungsfunktion, welche zur Generierung eines In- dex 112 konfiguriert ist. Der entsprechende Index 112 wird dabei in einem weiteren Datenmodell 110 bereitgestellt, in welchem die vollständigen Daten der Datensätze DS1 , DS2, DS3 oder eine aus diesen abgeleitete Datenmenge in umstrukturierter, redundanzfreier Form gespeichert sind. Zum Erzeugen des Index 112 wird auf den Tokenisierer 122 zugegriffen, welcher dazu konfiguriert ist, die Feldwerte der Fel- dern F1 , ... , F8 der in dem dokumentenbasierten Datenmodell 106 gespeicherten Datensätze 106 zu tokenisieren. Dabei können die resultierenden Token 109 auch mit einem Feldwert eines Feldes bzw. eines Datensatzes identisch sein, falls keine weitere Zerlegung in Token 109 möglich oder sinnvoll ist. Die Tokenisierung kann nach Ausführungsformen auch stufenweise erfolgen, so dass eine immer feinere Zerlegung erfolgt. Mithin kann der resultierende Index 112 in diesem Fall Token 109 umfassen, welche aus anderen Token 109 zusammengesetzt sind. Die Programm- logik bzw. Datenverarbeitungsfunktion kann dabei auf allen Computersystemen 100 bzw. für alle Einzeldatenbanken 104 des verteilten Datenbanksystems 170 identisch sein. Alternativ können sich die Programm logik bzw. Datenverarbeitungsfunktion zwischen Computersystemen 100 bzw. Einzeldatenbanken 104 des verteilten Datenbanksystems 170 auch unterscheiden, beispielsweise in Abhängigkeit von der Art oder dem Inhalt der von der jeweiligen Einzeldatenbank zu speichernden Daten.

Vorzugsweise werden sämtliche oder zumindest die meisten Feldwerte sämtlicher Datensätze DS1 , DS2, DS3 der Einzeldatenbank 104 tokenisiert, sodass eine um- fangreiche Menge an Token 109 entsteht. In Abhängigkeit von der Art der Daten in den einzelnen Feldwerten können die Token 109 eine Mischung aus Zahlen, Buch- stabenwörtern, Bildern oder Bildsegmenten, Audiodateien oder Audioelementen o- der sonstigen Datenstrukturen, insbesondere Sensordaten von ein oder mehreren Sensoren, umfassen. Jedes der erzeugten Token 109 wird in dem Index 1 12 mit ei- nem Zeiger verknüpft gespeichert, wobei der Zeiger auf den Datensatz bzw. das Feld verweist, aus dem das Token 109 entstammt.

Im Zuge der Erzeugung des Index 1 12 wird aus der Menge an Token 109 eine nichtredundante, unique Token-Menge gebildet, in welcher jedes der Token 109 höchstens einmal vorkommt. Vorzugsweise erfolgt die Speicherung aller Token 109 der nichtredundanten Tokenmenge in dem Index 1 12 so, dass die Token 109 nach einem Sortierkriterium sortiert werden und in sortierter Form in der Indexstruktur ge- speichert werden. Die Sortierung kann beispielsweise anhand des Alphabets für al- phanumerische Daten oder sonstiger, an die Daten angepasste Sortierkriterien er- folgen. Da die Token 109 in dem Index 1 12 vorzugsweise in sortierter Form gespei- chert sind, und weiterhin vorzugsweise in einer Baumstruktur gespeichert sind, ist es sehr schnell möglich, ein bestimmtes Token 109 innerhalb des Index 1 12 zu identifizieren und dann die Verweise dieses identifizierten Tokens 109 auf ein oder mehrere Datensätze DS1 , DS2, DS3 zu verwenden, um sehr schnell diejenigen Da- tensätze zu identifizieren, die ein bestimmtes, gesuchtes Token 109 enthalten. Es ist also nicht erforderlich, alle Datensätze DS1 , DS2, DS3 der Einzeldatenbank 104 sequenziell zu durchsuchen.

Empfängt die Einzeldatenbank 104 als Quelldatenbank einen zusätzlichen Daten- satz, z.B. DS3, wird dieser in dem ersten Datenmodell 106 gespeichert, unter Ver- wendung des Tokenisierers tokenisiert und die resultierenden Token werden dazu verwendet den Index 1 12 in dem zweiten Datenmodell 1 10 zu ergänzen. Ferner wird ein Ergänzungsdatensatz 130 erstellt, welcher die in dem Index 1 12 der Quell- datenbank 104 vorgenommenen Ergänzungen umfasst und zum Ergänzen weiterer Indexe weiterer Einzeldatenbanken des verteilten Datenbanksystems 170 als Emp- fangsdatenbanken dient. Der so erstellte Ergänzungsdatensatz 130 wird unter Ver- wendung einer Kommunikationsschnittstelle 126 des Computersystems 100 über ein Netzwerk an die Empfangsdatenbanken des verteilten Datenbanksystems 170 gesendet.

Figur 2A zeigt ein Diagramm einer Ausführungsform eines exemplarischen verteil- ten Datenbanksystems 170. Das verteilte Datenbanksystem 170 umfasst eine Mehr- zahl von Knoten K₁, ... , K₆. Diese Knoten K₁, ... , K₆ werden von Computersystemen 100, 200 gebildet, welche jeweils eine Einzeldatenbank des verteilten Datenbank- systems umfassen. Jeder der Knoten K₁, ... , K₆ aggregiert individuell Daten D₁, ... , D₆ und erstellt aus diesen einen Index l₁, ... , l₆. Wird ein Index I₁, ... , l₆ infolge eines zusätzlichen empfangenen Datensatzes ergänzt, so erstellt der entsprechende Kno- ten K₁, ... , K₆, z.B. Knoten K₁, einen Ergänzungsdatensatz E(I₁), welcher die Ergän- zungen des Index I₁ umfasst, und sendet diesen an die weiteren Konten K₂, ... , K₆ des verteilten Datenbanksystems 170, z.B. Knoten K₂. Ebenso erstellen auch die weiteren Knoten K₂, ... , K₆ des verteilten Datenbanksystems 170 bei Ergänzungen ihres Index, z.B. I₂, Ergänzungsdatensätze E(l₂) und senden diese an die weiteren Knoten, wie etwa Knoten K₂. Infolge dieses Austausches von Ergänzungsdaten- sätze E(I₁), E(l₂) werden alle Index I₁, ... , I₆ des Datenbanksystems 170 synchroni- siert, so dass sich der in Figur 2B gezeigt Zustand ergibt, in welchem alle Knoten K₁, ... , K₆ über einen vollständigen datenbankübergreifenden Index l(I₁, ... , I₆) des verteilten Datenbanksystems 170 verfügen.

In Figur 3 ist eine Mehrzahl von Knoten K₁, ... , K_N eines verteilten Datenbanksys- tems 170 gezeigt, welche jeweils eine Einzeldatenbank 1 , ... , N, umfassen. Infolge des in den Figuren 2 illustrierten Synchronisationsverfahren, umfassen jede der Ein- zeldatenbank 1 , ... , N einen vollständigen datenbankübergreifenden Index des verteilten Datenbanksystems 170, welcher die Informationen aller Einzelindexe I₁, ... , I_N umfasst.

Figur 4 zeigt ein Flussdiagramm der Ergänzung der Indexe. In Schritt a) wird ein erster Knoten K₁ der verteilten Datenbank 170 bereitgestellt, welcher eine Datenver- arbeitungsfunktion F₁ umfasst. In Schritt b) empfängt der Knoten K₁ Daten D₁. Aus diesen Daten D₁ wird in Schritt c) unter Verwendung der Datenverarbeitungsfunk- tion F₁ ein Index I₁ erzeugt bzw. ein bestehender Index I₁ ergänzt. In Schritt d) wird der resultierende Index I₁ bzw. ein aus der Ergänzung des bestehenden Index I₁ re- sultierender Ergänzungsdatensatz von dem Knoten K₁ an zumindest einen weiteren Knoten K₂ der verteilten Datenbank 170 gesendet. Der weitere Knoten K₂ umfasst ebenfalls Daten D₂, aus welchen unter Verwendung der Datenverarbeitungsfunktion F₂ ein Index I₂ erzeugt wird. Der Index I₂ wird um die empfangenen IndexinformationI₁ des ersten Knotens K₁ ergänzt, so dass der resultierende Index des Knoten K₁ ein kombinierter Index l(l) ist, welcher die Indexinformation beider Indexe I₁, I₂ beider Knoten K₁, K₂ miteinander kombiniert.

Figur 5 zeigt ein Flussdiagramm eines exemplarischen Verfahrens zum Implemen- tieren eines datenbankübergreifenden Index auf einem verteilten Datenbanksystem. In Block 300 wird ein zusätzlicher Datensatz durch eine erste Einzeldatenbank des verteilten Datenbanksystems als Quelldatenbank empfangen. Dieser zusätzliche Datensatz, welcher beispielsweise ein oder mehrere zusätzliche Feldwerte umfasst, wird zum Ergänzen der Quelldatenbank verwendet. In Block 302 wird der zusätzli- che Datensatz durch ein Multi-Modell-Datenbankmanagementsystem der Quellda- tenbank in einem dokumentenorientierten ersten Datenmodell der Quelldatenbank gespeichert. Zudem wird eine Datenverarbeitungsfunktion der Quelldatenbank auf den zusätzlichen Datensatz angewendet, welche zumindest eine Indexierung des zusätzlichen Datensatzes zum Speichern in einem zweiten Datenmodell der Quell- datenbank umfasst. In Block 304 werden ein oder mehreren zusätzlichen Token aus dem zusätzlichen Datensatz erzeugt. In Block 306 wird der Index der Quelldaten- bank durch das erste Multi-Modell-Datenbankmanagementsystem unter Verwen- dung der zusätzlichen Token und eines Zeigers auf den zusätzlichen in dem dokumentenorientierten Datenmodell der Quelldatenbank gespeicherten Datensatz ergänzt. Hierbei werden beispielsweise die zusätzliche Token mit dem Index der Quelldatenbank abgeglichen. Falls eines der zusätzlichen Token nicht von dem In- dex der Quelldatenbank umfasst ist, wird das entsprechende zusätzliche Token in dem Index der Quelldatenbank ergänzt und mit dem Zeiger auf den zusätzlichen in dem dokumentenorientierten Datenmodell der Quelldatenbank gespeicherten Da- tensatz verknüpft. Falls eines der zusätzlichen Token von dem Index der Quellda- tenbank bereits umfasst ist, wird das entsprechende zusätzliche Tokens in dem In- dex der Quelldatenbank mit dem Zeiger auf den zusätzlichen in dem dokumenten- orientierten Datenmodell der Quelldatenbank gespeicherten Datensatz verknüpft.

In Block 308 wird ein aus dem Anwenden der Datenverarbeitungsfunktion resultie- render Ergänzungsdatensatz erstellt. Dieser Ergänzungsdatensatz umfasst die in dem Index der Quelldatenbank vorgenommenen Ergänzungen und dient zum Er- gänzen zumindest eines zweiten Index zumindest einer zweiten Einzeldatenbank des verteilten Datenbanksystems als Empfangsdatenbank. In Block 310 wird der Er- gänzungsdatensatz über ein Netzwerk an die zweite Einzeldatenbank zur Integra- tion in den zweiten Index der Empfangsdatenbank gesendet.

Figur 6 zeigt ein Flussdiagramm eines exemplarischen Verfahrens zum Integrieren eines Ergänzungsdatensatzes in den Index einer Empfangsdatenbank. In Block 400 empfängt die Empfangsdatenbank den Ergänzungsdatensatz von einer Quelldaten- bank. Der Ergänzungsdatensatz umfasst in den Index der Quelldatenbank vorge- nommene Ergänzungen. In Block 402 wird der empfangene Ergänzungsdatensatz in den Index der Empfangsdatenbank integriert. Das Integrieren umfasst dabei ein Ergänzen des Index der Empfangsdatenbank. Dabei erfolgt beispielsweise ein Ab- gleichen von Token des Ergänzungsdatensatzes mit dem Index der Quelldaten- bank. Falls eines der Token des Ergänzungsdatensatzes nicht von dem Index der Quelldatenbank umfasst ist, wird das entsprechende Tokens in dem Index der Quelldatenbank ergänzt und in dem Index mit einem Zeiger auf den in einem doku- mentenorientierten Datenmodell der Quelldatenbank gespeicherten Datensatz, aus welchem das entsprechende Token erzeugt wurde, verknüpft. Falls eines der Token des Ergänzungsdatensatzes von dem Index der Quelldatenbank bereits umfasst ist, wird das entsprechende Tokens in dem Index der Quelldatenbank mit dem Zeiger auf den in einem dokumentenorientierten Datenmodell der zusätzlichen Quelldaten- bank gespeicherten Datensatz, aus welchem das entsprechende Token erzeugt wurde, verknüpft.

Figur 7 zeigt ein Flussdiagramm einer Ausführungsform eines exemplarischen Ver- fahrens zum Ausführen einer Suche auf einer der Einzeldatenbanken. In Block 500 wird eine Suchanfrage empfangen, die einen Suchwert beinhaltet. Block 502 wird der Index nach dem Suchwert durchsucht und in Block 504 wird ein Token innerhalb des Index identifiziert, welcher identisch mit dem Suchwert ist und/oder welcher un- ter den durch den Suchwert definierten Suchumfang fällt. In Block 506 werden, falls die Suche dies erfordert, Zeiger analysiert, mit denen das oder die identifizierten To- ken verknüpft sind. Dadurch können ein oder mehrere der Datensätze bestimmt werden, welche ein oder mehrere Feldwerte beinhalten, aus welchen das indexierte Token erzeugt wurde. In Block 508 wird eine Antwort auf die Suchanfrage zurückge- geben. Diese Antwort umfasst beispielsweise: eine Angabe über die identifizierten Token, ein oder mehrere durch Analysieren von Zeigern, mit denen die identifizierte Token verknüpft sind, bestimmten Datensätze oder ein oder mehreren Referenzen auf die bestimmten Datensätze. Wird etwa nur danach gesucht welche Token eine bestimmtes durch den Suchwert festgelegte Kriterium erfüllen, reicht es die aufge- fundenen Token zurück zu geben, ohne weitere Analyse von Zeigern oder Datens- ätzen. Sollen gemäß der Suche zudem die Datensätze identifiziert werden, welche die aufgefundenen Token umfassen, werden die Zeiger analysiert, es ist aber kein Zugriff auf die zugrundeliegenden Datensätze notwendig. Alternativ können gemäß der Suche auch die zugrundeliegenden Datensätze mit abgefragt werden.

Figur 8 zeigt ein schematisches Blockdiagramm von Ausführungsform eines exemp- larischen Quellcomputersystems 100 sowie eines exemplarischen Empfangscompu- tersystems 200 eines verteilten Datenbanksystems 170. Beide Computersysteme 100, 200 umfasst jeweils zumindest einen Prozessor 1 14, 214, welcher Program- minstruktionen 1 16, 216 ausführt. Durch das Ausführen der Programminstruktionen 1 16, 216 wird beispielsweise das zuvor beschriebene Verfahren zum Implementie- ren eines datenbankübergreifenden Index auf einem verteilten Datenbanksystem 170 umgesetzt. Beispielsweise führen die Prozessoren 1 14, 214 jeweils eine Multi- Modell-Datenbankmanagementsystem 1 18, 218 sowie einen Tokenisierer 122 aus. Ferner umfassen die Computersysteme 100 jeweils in einem Speicher 102, 202 eine Einzeldatenbank 104, 204, welche von dem jeweiligen Multi-Modell-Daten- bankmanagementsystem 1 18, 218 verwaltet wird. Die Datenbanken 104, 204 um- fassen jeweils ein erstes Datenmodell 106, 206, z.B. ein dokumentenorientiertes Datenmodell, in welchem Datensätze 108, 208 gespeichert werden. Ferner umfas- sen die Datenbanken 104, 204 jeweils ein zweites Datenmodell 1 10, 210 mit einem Index 1 12, 212 aller in den Datensätzen 108, 109 gespeicherten Daten. Um die In- dexe 1 12, 212 bei unterschiedlichen Datensätzen 108, 109 synchronisieren zu kön- nen und so einen datenbankübergreifenden Index auf den verteilten Datenbanksys- tem 170 zu implementieren. Wird beispielsweise auf dem Quellcomputersystem 100 ein Ergänzungsdatensatz 130 erzeugt, welcher Ergänzungen des Index 1 12 um- fasst. Um diese Ergänzungen des Index 1 12 auch dem Empfangscomputersystem zur Verfügung zu stellen zu können, umfassen beide Computersysteme 100, 200 je- weils eine Kommunikationsschnittstelle 126, 226 durch welche sie über ein Netz- werk 180 miteinander kommunizieren können. Das Quellcomputersystem 100 sen- det den Ergänzungsdatensatz 130 über das Netzwerk 180 an das Empfangscompu- tersystem 200, welches unter Verwendung des empfangenen Ergänzungsdatensatz 130 seinen Index 212 mit dem Index 1 12 synchronisiert.

Figur 9 zeigt Blockdiagramm einer Rechtevergabe mittels Übertragung von Zugriffs- Rechten über eine Kette Entitäten, etwa Einzeldatenbanken oder deren Nutzer. Ein Datensatz 108 mit Nutzdaten 160 wird durch eine Einzeldatenbank empfangen. Im Zuge der Erstellung des Datensatz 108 oder der Speicherung in der Einzeldaten- bank werden automatisch im Flintergrund Zugriffs-Zertifikate 162, 164, 166, die ei- ner ersten Entität zugewiesen sind, in entsprechenden Feldern des Datensatzes ge- speichert. Bei der ersten Entität handelt es sich beispielsweise um den Ersteller des Datensatzes, wie etwa die entsprechende Einzeldatenbank oder einen Nutzer der- selben. Die Zugriffs-Zertifikatei 62, 164, 166 sind für unterschiedliche Arten des Zugriffs auf den Datensatz konfiguriert. Das Zugriffs-Zertifikat 162 ist für einen Lese- zugriff, das Zugriffs-Zertifikat 164 für einen Schreibzugriff sowie das Zugriffs-Zertifi- kat 166 für den Zugriff auf Token eines Index, welche aus dem entsprechenden Da- tensatz erzeugt werden.

Sollen einer weiteren Entität ebenfalls Zugriffs-Rechte auf den Index erteilt werden, etwa einer zweiten Einzeldatenbank oder einem Nutzer der zweiten Einzeldaten- bank, wird ein in einer ID-Datenbank 172 der weiteren Entität das Indexzugriffs-Zer- tifikat 166, welches Indexzugriffe in Bezug auf den Datensatz 108 ermöglicht zuge- ordnet. Dies erfolgt beispielsweise, indem eine Verknüpfung dieses Zertifikats 166 mit einem Nutzer-Zertifikat 168 der weiteren Entität in der ID-Datenbank 172 gespei- chert wird, zum Beispiel innerhalb des gleichen Zugriffsermächtigungskettenobjekts.

Auf dieselbe Weise können auch einer dritten Entität Zugriffs-Rechte in Bezug auf den Datensatz 108 zugeordnet werden. Hierzu wird das Indexzugriffs-Zertifikat 166 auch dieser weiteren Entität zugeordnet. Dies erfolgt beispielsweise, indem eine Verknüpfung dieses Zertifikats 166 mit einem Nutzer-Zertifikat 174 der dritten Entität in der ID-Datenbank 172 gespeichert wird, zum Beispiel innerhalb des gleichen Zu- griffsermächtigungskettenobjekts. Hierbei kann das Nutzer-Zertifikat 174 entweder an das Nutzer-Zertifikat 168 oder direkt an das Indexzugriffs-Zertifikat 166 ange- hängt werden.

Soll ein Zugriff auf Token in einem Index erfolgen, welche aus dem Datensatz 108 erzeugt wurde, wird zunächst geprüft, ob ein Besitz des selbst Indexzugriffs-Zertifi- kats 166 oder eines der mit dem Indexzugriffs-Zertifikat 166 verknüpften Nutzerzerti- fikate 168, 174 nachgewiesen werden kann. Falls dies gelingt wird der Zugriff freige- geben, andernfalls wird der Zugriff verwehrt.

Die in den Zugriffsermächtigungskettenobjekten dokumentierte Kette an Nutzer-Zer- tifikaten dokumentiert die Übertragung von Zugriffs-Rechten über eine Sequenz mehrerer Nutzer. Die Sequenz kann aus einer bloßen Aneinanderreihung von Nut- zer-Zertifikaten bestehen, wobei beispielsweise die Position der Nutzer-Zertifikate innerhalb der Kettenobjekte die zeitliche Reihe der Übertragungen repräsentiert. Optional kann nach manchen Ausführungsformen die Kette von Nutzer-Zertifikaten innerhalb eines Ermächtigungskettenobjekten dadurch generiert werden, dass die ID-Datenbank die den einzelnen Nutzer-Zertifikaten zugeordneten privaten Schlüs- sel so verwendet, dass das letzte Nutzer-Zertifikat in der Kette das an dieses neu- angefügte neue Nutzer-Zertifikat signiert, sodass auch innerhalb der Kette der Nut- zer-Zertifikate der einzelnen Ermächtigungskettenobjekte eine Zertifikatskettenprü- fung möglich ist.

Figur 10 zeigt Blockdiagramm des verteilten Datenbankensystems 170. Dieses um- fasst beispielsweise ein Quellcomputersystem 100 und ein Empfangscomputersys- tem 200. Das Quellcomputersystem 100 sendet über ein Netzwerk 180 einen Er- gänzungsdatensatz 130 an das Empfangscomputersystem 200 zum Ergänzen ei- nes von der Empfangsdatenbank 204 des Empfangscomputersystems 200 umfass- ten Index, sodass dieser mit einem Index der Quelldatenbank 104 des Quellcompu- tersystems 100 synchronisiert wird.

Zum Zugriff auf den Index der Quelldatenbank 104 muss das Quellcomputersystem 100 bzw. ein Nutzer desselben Zugriffs-Rechte Nachweisen. Diese werden bei- spielsweise durch einen Abgleich mit einem in der Quell-ID-Datenbank 172 gespei- cherten Zugriffsermächtigungskettenobjekten überprüft. Bestehen die Zugriffs- Rechte, kann beispielsweise auf den Index Zugegriffen werden und es kann der ei- nen Ergänzungsdatensatz 130 erstellt werden. Damit auch das Empfangscomputer- system 200 zum Ergänzen des Index der Empfangsdatenbank 204 ermächtigt wird, wird für diese oder einen Nutzer derselben ein entsprechendes Zugriffsermächti- gungskettenobjekten erzeugt und an die Quell-ID-Datenbank 174 übertragen. Somit kann das auch das Empfangscomputersystem 200 seine Zugriffs-Rechte nachwei- sen. Nach Ausführungsformen ist eine Ermächtigung des Empfangscomputersys- tem 200 bzw. der Empfangsdatenbank 204 eine notwendige Voraussetzung für das Senden des Ergänzungsdatensatz 130 mit Indexinformationen an die Empfangsda- tenbank 204. Nach alternativen Ausführungsformen kann auch eine zentrale ID- Datenbank für mehrere oder alle Computersysteme 100, 200 des verteilten Daten- banksystems 170 vorgesehen sein.

Figur 1 1 zeigt ein Blockdiagramm einer erweiterten Ausführungsform des exemplari- schen Computersystems 100 aus Figur 1 , welches zum maschinellen Lernen konfi- guriert ist. Das Computersystems 100 aus Figur 1 1 umfasst zusätzlich ein Lernmo- dul 120 zum Verarbeiten der in der Einzeldatenbank 104 gespeicherten Daten. Das Lernmodul 120 umfasst beispielsweise den Tokenisierer 120 zum Erzeugen von To- ken 109 und zudem Trigger-Definitionen 123, welche Trigger für eine Klassifizierung von Token 109 definieren, und/oder einen Klassifizierer 124, welcher die Token 109 unter Verwendung der Trigger-Definitionen 123 klassifiziert. Nach Ausführungsfor- men umfasst das Lernmodul 120 ferner ein statistisches Modell 125. Das statisti- sches Modell 125 kann dazu konfiguriert sein, Trigger-Kombinationen zu erfassen und kombinierte Trigger-Definitionen zu erstellen, zusätzliche Trigger-Definitionen zu erstellen und/oder korrigierte Trigger-Definition zu erstellen. Nach alternativen Ausführungsformen kann auch das MM-DBMS 1 18 den Tokenisierer 122 umfassen und/oder auf einen von dem Lernmodul 120 bereitgestellten Tokenisierer 122 zu- greifen. Nach alternativen Ausführungsformen kann können die Trigger-Definitionen 123 auch in der Einzeldatenbank 104 gespeichert sein.

Das MM-DBMS 1 18 und/oder das Lernmodul 120 verfügen dabei über eine einge- baute Program logik, die zur Generierung eines Index 1 12 konfiguriert ist.

Bei der Generierung des Index 1 12 werden Token 109 in dem Index 1 12, welche von einer der Trigger-Definitionen 123 als Trigger umfasst sind, jeweils der entspre- chen Trigger-Definition 123 zugeordnet. Ferner werden Token 109 in dem Index 1 12, welche von einem der Datensätze DS1 , DS2, DS3 in einer Kombination mit ein oder mehreren der identifizierten Trigger gemäß einer der Trigger-Definitionen 123 umfasst sind, jeweils ein oder mehreren Klassen zugeordnet. Die entsprechenden Klassenzuordnungen stellen dabei Meta- bzw. Kontextinformationen für die entspre- chenden Token 109 bereit. Schließlich werden sind die verbliebenen Token 109 in dem Index 1 12, welche sich unter Verwendung der Trigger-Definitionen 123 weder als Trigger identifizieren, noch einer Klasse zuordnen als, zum Kennzeichnen als unbekannte Daten einer Auffangklasse zugeordnet. Dabei schließt eine Zuordnung zu der Auffangklasse eine Zuordnung zu einer der Trigger-Definitionen 123 ebenso wie eine Zuordnung zu einer der Klassen gemäß den Trigger-Definitionen 123 aus. Die zuvor beschriebenen Zuordnungen erfolgen beispielsweise unter Verwendung des Klassifizierers 124 des Lernmoduls 120.

Im Zuge der Erzeugung des Index 112 wird aus der Menge an Token 109 eine nichtredundante, unique Token-Menge gebildet, in welcher jedes der Token 109 nur ein einziges Mal vorkommt. Auch wenn ein Token 109 mit einem bestimmten Wert und einer bestimmten Klassenzuordnung mehrfach in der Einzeldatenbank 104 bzw. in dem Datenmodell 106 vorkommt, wird es beispielsweise nur ein einziges Mal mit dieser Klassenzuordnung in der nichtredundante Token-Menge und in dem Index 112 gespeichert.

Figur 12 zeigt ein schematisches Blockdiagramme einer exemplarischen Datenver- arbeitung durch das Multi-Modell-Datenbankmanagementsystem und das Lernmo- dul. Es wird eine vorbestimmte Trigger-Definition 123 der Form„[Vorname] [Nach- name] [Trigger1 = wohnt in der] [Straße] [Trigger2 = in] [Stadt]“ bereitgestellt. Diese Trigger-Definition 123 definiert zwei Trigger, d.h. einen ersten Trigger„wohnt in der“ und einen zweiten Trigger„in“. Zudem definiert die Trigger-Definition, dass es sich bei einem dem ersten Trigger unmittelbar vorangehenden Token um einen Nachna- men handelt, während es sich bei einem dem Nachnamen unmittelbar vorangehen- den Token um einen Vornamen handelt. Ferner definiert Trigger-Definition, dass es sich bei einem zwischen den beiden Triggern angeordneten Token um eine Straße handelt und dass es sich bei einem dem zweiten Trigger unmittelbar nachfolgenden Token um eine Stadt handelt.

In einem dokumentenbasierten Datenmodell 106 einer Datenbank sind zwei Doku- mente 108 gespeichert. Jedes Dokument 108 umfasst jeweils einen Datensatz DS1 , DS2. Beispielsweise handelt es sich bei den Datensätzen DS1 , DS2 jeweils um eine Textdatei. Der erste Datensatz DS1 umfasst beispielsweise den Satz: „Mustervorname_1 Musternachname_1 wohnt in der Musterstr._1 in Muster- stadt_1“. Dieser Satz wird mittels Tokenisierers in Token 109 zerlegt:„Mustervor- name_1“,„Musternachname_1“,„wohnt in der“,„Musterstr._1“,„in“,„Musterstadt_1“.

Die beiden Token„wohnt in der“ und„in“ werden als Trigger gemäß der Trigger-De- finition 123 identifiziert. Unter Verwendung der identifizierten Trigger sowie der Trig- ger-Definition 123 werden die verbleibenden Token 109 jeweils den von der Trigger- Definition definierten Klassen 1 1 1 zugeordnet. So wird das Token„Mustervor- name_1“ der Klasse„Vorname“, das Token„Musternachname_1“ der Klasse„Nach- name“, das Token„Musterstr._1“ der Klasse„Straße“ und das Token„Muster- stadt_1“ der Klasse„Stadt“ zugeordnet. Die als Trigger identifizierten Token werden ebenso wie die anhand dieser Trigger klassifizierten Token in einem Index in einem zweiten Datenmodell 1 10 gespeichert. Dabei werden die Trigger in Form einer Trig- ger-Zuordnung 1 17 jeweils der Trigger-Definition 123 zugeordnet. Die verbleiben- den Token 109 werden jeweils in Form einer Klassen-Zuordnung 1 13 einer der von der Trigger-Definition 123 definierten Klassen zugeordnet gespeichert. Zudem wer- den alle Trigger und klassifizierten Token in dem zweiten Datenmodell 1 10 mit ei- nem Zeiger 1 15 auf ihren Speicherort in dem ersten Datenmodell, d.h. DS1 , ver- knüpft.

Empfängt die Datenbank einen zweiten Datensatz DS2 der Form:„Mustervor- name_2 Musternachname_2 wohnt in der Musterstr._2 in Musterstadt_2“, so wird dieser Satz mittels Tokenisierers in Token zerlegt:„Mustervorname_2“,„Muster- nachname_2“,„wohnt in der“,„Musterstr._2“,„in“,„Musterstadt_2“ und in redun- danzfreier Form ebenfalls in dem zweiten Datenmodell 1 10 gespeichert.

Die beiden Token„wohnt in der“ und„in“ werden als Trigger gemäß der Trigger-De- finition 123 identifiziert. Da diese beiden Trigger der Trigger-Definition 123 von dem Index bereits umfasst sind, werden diese nicht nochmals in dem zweiten Datenmo- dell 1 10 gespeichert. Es wird lediglich ein Zeiger auf den zweiten Datensatz DS2 er- gänzt. Unter Verwendung der identifizierten Trigger sowie der Trigger-Definition 123 werden die verbleibenden Token 109 des Datensatzes DS2 jeweils den von der Trigger-Definition definierten Klassen 1 1 1 zugeordnet. So wird das Token„Muster- vorname_2“ der Klasse„Vorname“, das Token„Musternachname_2“ der Klasse „Nachname“, das Token„Musterstr._2“ der Klasse„Straße“ und das Token„Muster- stadt_2“ der Klasse„Stadt“ zugeordnet. Die klassifizierten Token 109 des Datensat- zes DS2 werden jeweils in Form einer Klassen-Zuordnung 1 13 einer der von der Trigger-Definition 123 definierten Klassen zugeordnet gespeichert und mit einem Zeiger 1 15 auf ihren Speicherort in dem ersten Datenmodell, d.h. DS2, verknüpft.

Mithin werden alle Token des zweiten Datensatzes DS2 ebenfalls in redundanz- freier Form jeweils mit ihren Klassen-Zuordnungen in dem zweiten Datenmodell 1 10 verknüpft mit einem Zeiger auf ihren Speicherort in dem ersten Datenmodell gespei- chert.

Figur 13 zeigt ein schematisches Blockdiagramme einer exemplarischen Datenver- arbeitung durch das Multi-Modell-Datenbankmanagementsystem und das Lernmo- dul. Es wird eine vorbestimmte Trigger-Definition 123 der Form„[Trigger1 = +, Ra- dius = NP] [Trigger1 = x, Radius = NP] [Klasse]“ bereitgestellt. Diese Trigger-Defini- tion 123 dient dazu aus einer Bilddatei erzeugte Token zu klassifizieren, wobei die Bilddatei in Token in Form von Pixelgruppen zerlegt wird. Die Trigger-Definition 123 definiert zwei Trigger, d.h. einen ersten Trigger in Form einer Pixelgruppe mit dem Inhalt„+“ und einen zweiten Trigger in Form einer Pixelgruppe mit dem Inhalt„x“. Zudem definiert die Trigger-Definition, dass es sich bei einer Pixelgruppe, welche innerhalb eines ersten Radius von N Pixeln um den ersten Trigger und zugleich in- nerhalb eines zweiten Radius von N Pixeln um den zweiten Trigger angeordnet ist, um eine ein Token der der Klasse„Klasse“ handelt.

In einem dokumentenbasierten Datenmodell 106 einer Datenbank ist ein Doku- mente 108 gespeichert. Dieses Dokument 108 umfasst einen Datensatz DS. Bei- spielsweise handelt es sich bei dem Datensatz DS um eine zweidimensionale Bild- datei. Diese Bilddatei wird mittels Tokenisierers in Token zerlegt, wobei es sich bei den Token jeweils um Pixelgruppen 150 handelt. Beispielsweise wird der in Z mal Z gleichgroße Pixelgruppen zerlegt. Die Token umfassen beispielsweise ein erstes Token in Form einer Pixelgruppe mit dem Inhalt„x“, ein zweites Token in Form einer Pixelgruppe mit dem Inhalt„+“, ein drittes Token in Form einer Pixelgruppe mit dem Inhalt„#“ und ein viertes Token in Form einer Pixelgruppe mit dem Inhalt

Die beiden Token„+“ und x“ werden als Trigger 121 gemäß der Trigger-Definition 123 identifiziert. Unter Verwendung der identifizierten Trigger sowie der Trigger-De- finition 123 wird das dritte Token„#“ der von der Trigger-Definition definierten Klasse 1 1 1 zugeordnet, da es in der zweidimensionalen Bilddatei innerhalb eines ersten Radius 152 von N Pixeln um den ersten Trigger„+“ und zugleich innerhalb eines zweiten Radius 154 von N Pixeln um den zweiten Trigger„x“ angeordnet ist. Da das vierte Token nicht unter die Trigger-Definition 123 fällt, wird es als unbe- kanntes Datum der Auffangklasse zugeordnet.

Die als Trigger 121 identifizierten Token„+“ und„x“ werden ebenso wie das anhand dieser Trigger klassifizierte Token„#“ und das der Auffangklasse zugeordnete To- ken in einem Index in einem zweiten Datenmodell 1 10 gespeichert. Dabei wer- den die Trigger„+“ und„x“ in Form einer Trigger-Zuordnung 1 17 jeweils der Trigger- Definition 123 zugeordnet. Das Token„#“ wird in Form einer Klassen-Zuordnung 1 13 der von der Trigger-Definition 123 definierten Klassen zugeordnet gespeichert. Das Token wird in Form einer Zuordnung 1 19 der Auffangklassen zugeordnet ge- speichert. Zudem werden alle Trigger und klassifizierten Token in dem zweiten Da- tenmodell 1 10 mit einem Zeiger 1 15 auf ihren Speicherort in dem ersten Datenmo- dell, d.h. DS, verknüpft.

Figur 14 zeigt ein schematisches Blockdiagramm von Ausführungsform eines exemplarischen Quellcomputersystems 100 sowie eines exemplarischen Empfangs- computersystems 200 eines verteilten Datenbanksystems 170. Die Ausführungs- form aus Figur 14 entsprechen weitgehend den Ausführungsformen aus Figur 8. In Figur 14 weisen die beiden Computersysteme 100, 200 zusätzlich jeweils ein Lern- modul 120, 220 auf, welches neben dem Tokenisierer 122, 222 zusätzlich Trigger- Definitionen 123, 223 zum klassifizieren der Daten mittels eines Klassifizierers 124, 224 sowie ein statistisches Modell 125, 225. Figur 15 zeigt ein Flussdiagramm einer Ausführungsform eines weiteren exemplari- schen Verfahrens zum Implementieren eines datenbankübergreifenden Index auf einem verteilten Datenbanksystem. In Block 600 wird für eine Quelldatenbank des verteilten Datenbanksystems ein vortrainiertes Lernmoduls zum maschinellen Ler- nen bereitgestellt, welches eine Mehrzahl von vorbestimmten Trigger-Definitionen umfasst. Diese vorbestimmten Trigger-Definitionen definieren Trigger für ein Zuord- nen von Token zu Klassen einer Gruppe von Klassen. In Block 602 wird die ent- sprechende Quelldatenbank bereitgestellt. Die Quelldatenbank wird von einem Multi-Modell-Datenbankmanagementsystem verwaltet und umfasst eine Mehrzahl von Datensätze, welche in einem dokumentenorientierten Datenmodell gespeichert sind. Diese gespeicherten Datensätze umfassen jeweils ein oder mehreren Felder mit Feldwerten. Zudem umfasst die bereitgestellte Quelldatenbank einen durch- suchbaren Index aller von den gespeicherten Datensätzen umfassten Daten. Dieser Index wird redundanzfrei in einem weiteren von dem Multi-Modell-Datenbankmana- gementsystem verwalteten Datenmodell gespeichert. Der Index umfasst eine Mehr- zahl von aus den Feldwerten der gespeicherten Datensätze erzeugten Token die in dem Index jeweils mit einem oder mehreren Zeigern auf ein oder mehrere der in dem dokumentenorientierten Datenmodell gespeicherten Datensätze und/oder Fel- der verknüpft sind, aus deren Feldwerten das entsprechende Token erzeugt wurde.

Erste Token in dem Index, welche von einer der Trigger-Definitionen als Trigger um- fasst sind, sind jeweils der entsprechen Trigger-Definition zugeordnet. Zweite Token in dem Index sind jeweils ein oder mehreren Klassen der Gruppe von Klassen zuge- ordnet. Die verbleibenden Token in dem Index sind schließlich zum Kennzeichnen der entsprechenden verbleibenden Token als unbekannte Daten einer Auffang- klasse zugeordnet. Dabei schließt die Zuordnung zu der Auffangklasse eine Zuord- nung zu einer der Trigger-Definitionen ebenso wie eine Zuordnung zu einer der Klassen der ersten Gruppe von Klassen aus.

In Block 604 wird ein zusätzlicher Datensatz empfangen und in Block 606 durch das Multi-Modell-Datenbankmanagementsystem in dem dokumentenorientierten Datenmodell der Quelldatenbank gespeichert. Dabei erfolgt die Speicherung in ei- nem Dokument bzw. Datencontainer. Der zusätzliche Datensatz wird unter Anwen- dung einer Datenverarbeitungsfunktion weiterverarbeitet. Dies umfasst: In Block 608 werden ein oder mehrere zusätzliche Token aus zusätzlichen Feldwerten erzeugt, welche der zusätzliche Datensatz umfasst. In Block 610 werden ein oder mehrere erste zusätzliche Token als Trigger identifiziert, falls diese von einer der Trigger-De- finitionen als Trigger umfasst sind. In Block 612 werden die verbleibenden zusätzli- chen Token klassifiziert. Die in Block 610 identifizierten Trigger werden zum Zuord- nen von ein oder mehreren zweiten zusätzlichen Token zu ein oder mehreren Klas- sen der Gruppe von Klassen verwendet, falls die entsprechenden zweiten zusätzli- chen Token von dem zusätzliche Datensatz in einer Kombination mit ein oder meh- reren der identifizierten Trigger gemäß einer der Trigger-Definitionen umfasst sind und die entsprechenden Trigger gemäß der entsprechenden Trigger-Definition eine entsprechende Klassenzuordnung triggern. Die verbleibenden zusätzlichen Token, für welche keine Zuordnung zu einer der Trigger-Definitionen und keine Klassenzu- ordnung aufgrund einer der Trigger-Definitionen erfolgt ist, werden im Zuge des Klassifizierens in Block 612 der Auffangklasse zugeordnet. Schließlich wird in Block 614 der Index durch das Multi-Modell-Datenbankmanagementsystem unter Verwen- dung der unter Verwendung der zusätzlichen Token aus Block 608, der Klassenzu- ordnungen der zusätzlichen Token aus Block 612 und eines Zeigers auf den zusätz- lichen in dem dokumentenorientierten Datenmodell gespeicherten Datensatz er- gänzt. Falls Zeiger einzelne Felder des zusätzlichen Datensatzes anzeigen, wird bei einer Mehrzahl von Feldern eine Mehrzahl von Zeigern verwendet.

Dabei kann das Ergänzen in Block 614 ein Abgleichen der zusätzlichen Token mit dem Index umfassen. Falls eines der zusätzlichen Token nicht von dem Index um- fasst ist, wird das entsprechende zusätzliche Token unter seinen Klassenzuordnun- gen in dem Index ergänzt und mit dem Zeiger auf den zusätzlichen in dem doku- mentenorientierten Datenmodell gespeicherten Datensatz verknüpft. Falls eine der Klassenzuordnungen eines von dem Index umfassten zusätzlichen Tokens von dem Index nicht umfasst ist, wird die entsprechende Klassenzuordnung mit dem entspre- chenden zusätzlichen Token in dem Index ergänzt und das entsprechende zusätzliche Token in dem Index mit dem Zeiger auf den zusätzlichen in dem doku- mentenorientierten Datenmodell gespeicherten Datensatz verknüpft. Falls eines der zusätzlichen Token mit allen seinen Klassenzuordnungen von dem Index umfasst ist, wird das entsprechende zusätzliche Token in dem Index mit dem Zeiger auf den zusätzlichen in dem dokumentenorientierten Datenmodell gespeicherten Datensatz verknüpft.

Zudem kann das Ergänzen in Block 614 ein Kennzeichnen von Kombinationen aus zweiten zusätzlichen Token mit ein oder mehreren der identifizierten Trigger, welche eine Klassenzuordnung gemäß einer der Trigger-Definitionen getriggert haben, in dem Index als klassifizierte Kombinationen umfassen. Klassenzuordnungen werden nur für Kombinationen aus zweiten zusätzlichen Token und ein oder mehreren iden- tifizierten Triggern ausgeführt, welche nicht als klassifizierte Kombinationen gekenn- zeichnet sind. Somit kann durch das Kennzeichnen vermieden werden, dass für be- reits bekannte und klassifizierte Kombinationen bei einem wiederholten Auftreten in verschiedenen Datensätzen jeweils das Klassifizieren wiederholt wird. Vielmehr er- folgt vor einem Klassifizieren ein Abgleich von Token-Kombinationen mit dem Index. Umfasst der Index die entsprechende Token-Kombination bereits und ist diese als klassifiziert gekennzeichnet, so erfolgt keine erneute Klassifikation für diese Token- Kombination. Es werden lediglich die entsprechende Token-Kombination und/oder die von der entsprechenden Token-Kombination umfassten Teilkombinationen und Einzeltoken in dem Index mit dem Zeiger auf den zusätzlichen in dem dokumenten- orientierten Datenmodell gespeicherten Datensatz verknüpft.

In Block 616 wird ein aus dem Anwenden der Datenverarbeitungsfunktion resultie- render Ergänzungsdatensatz erstellt. Dieser Ergänzungsdatensatz umfasst die in dem Index der Quelldatenbank vorgenommenen Ergänzungen und dient zum Er- gänzen zumindest eines zweiten Index zumindest einer zweiten Einzeldatenbank des verteilten Datenbanksystems als Empfangsdatenbank. In Block 618 wird der Er- gänzungsdatensatz über ein Netzwerk an die zweite Einzeldatenbank zur Integra- tion in den zweiten Index der Empfangsdatenbank gesendet. Figur 16 zeigt ein Flussdiagramm einer Ausführungsform eines exemplarischen Ver- fahrens zum Erzeugen kombinierter Trigger-Definitionen. In Block 700 werden ein oder mehr Trigger-Kombinationen durch das Lernmodul identifiziert, welche jeweils von zumindest einem der Datensätzen umfasst sind und ein Kombinationskriterium erfüllen. In Block 702 werden für jede der in Block 700 identifizierten Trigger-Kombi- nationen die Trigger-Definitionen der Trigger der entsprechenden Trigger-Kombina- tionen zu ein oder mehreren zusätzlichen kombinierten Trigger-Definitionen kombi- niert. In Block 704 wird die Mehrzahl von vorbestimmten Trigger-Definitionen des Lernmoduls durch die ein oder mehreren zusätzlichen kombinierten Trigger-Definiti- onen ergänzt.

Figur 17 zeigt ein Flussdiagramm einer Ausführungsform eines exemplarischen Ver- fahrens zum Ergänzen zusätzlicher Trigger-Definitionen. In Block 800 wird das vor- trainierte Lernmoduls um ein oder mehrere zusätzliche Trigger-Definitionen ergänzt. Die zusätzlichen Trigger-Definitionen definieren zusätzliche Trigger für ein Ersetzen von Zuordnungen von Token in dem Index zu der Auffangklasse durch Zuordnun- gen zu ein oder mehreren Klassen einer weiteren Gruppe von Klassen im Zuge ei- nes Reklassifizierens. Die zusätzlichen Trigger-Definitionen können beispielsweise von dem Lernmodul empfangen werden. Beispielsweise werden die entsprechen- den zusätzlichen Trigger-Definitionen von einem Administrator bereitgestellt. Nach alternativen Ausführungsformen werden die zu ergänzenden zusätzlichen Trigger- Definitionen von dem Lernmodul erstellt. Hierzu umfasst das Lernmodul ein statisti- sches Modell, welches zu einer statistischen Analyse der von der Auffangklassen umfassten Token und deren Vorkommen in den Datensätze verwendet wird. Das Ergebnis der statistischen Analyse wird zum Erstellen der zu ergänzenden zusätzli- chen Trigger-Definitionen verwendet.

In Block 802 werden ein oder mehreren der Auffangklasse zugeordneten Token in dem Index reklassifiziert, welche die zusätzlichen Trigger-Definitionen als zusätzli- che Trigger definierten. Das Reklassifizieren durch das Lernmodul umfasst ein Er- setzen der Zuordnung zu der Auffangklasse durch eine Zuordnung zu der entspre- chen zusätzlichen Trigger-Definition, welche das entsprechende Token als zusätzlichen Trigger umfasst. In Block 804 werden die zusätzliche Trigger zum Re- klassifizieren von ein oder mehreren der Auffangklasse zugeordneten Token in dem Index zu ein oder mehreren Klassen der weiteren Gruppe von Klassen durch das Lernmodul verwendet, falls die entsprechenden der Auffangklasse zugeordneten Token von einem der Datensätze in einer Kombination mit ein oder mehreren der zusätzlichen Triggern umfasst sind und die entsprechenden zusätzlichen Trigger gemäß der entsprechenden zusätzlichen Trigger-Definition eine entsprechende Zu- ordnung zu den ein oder mehreren Klassen der weiteren Gruppe von Klassen trig- gern.

Beispielsweise kann das Verfahrens zum Ergänzen zusätzlicher Trigger-Definitio- nen einem rekursiven Schema folgend wiederholt ausgeführt werden. Die zu ergän- zenden Trigger-Definitionen jeder Rekursionsstufe umfassen jeweils Ergänzungen einer Trigger-Definition einer vorangehenden Rekursionsstufe, sodass die rekursi- ven Ergänzungen Baumstrukturen bilden, welche jeweils eine der vorbestimmten Trigger-Definition als Wurzelknoten umfassen.

Figur 18 zeigt ein Flussdiagramm einer Ausführungsform eines exemplarischen Ver- fahrens zum Korrigieren von Trigger-Definitionen in Block. In Block 900 wird eine korrigierte Trigger-Definition zum Ersetzen einer der gespeicherten Trigger-Definitio- nen des Lernmoduls empfangen. Diese korrigierte Trigger-Definition wird beispiels- weise von einem Administrator bereitgestellt. Nach alternativen Ausführungsformen wird die korrigierte Trigger-Definition von dem Lernmodul unter Verwendung eines statistischen Modells erstellt. In Block 902 wird die entsprechende gespeicherte Trigger-Definition durch die korrigierte Trigger-Definition ersetzt. In Block 904 erfolgt ein Reklassifizieren der unter Verwendung der entsprechenden gespeicherten Trig- ger-Definition klassifizierten Token, wobei das Reklassifizieren unter Verwendung der korrigierten Trigger-Definition erfolgt. Bezugszeichenliste

100 Computersystem

102 Speicher

104 Quelldatenbank

106 erstes Datenmodell

108 Datensätze

109 Token

110 zweites Datenmodell

111 Klasse

112 Index

113 Klassen-Zuordnung

114 Prozessor

115 Zeiger

116 Programminstruktionen

117 Trigger-Zuordnung

118 MM-DBMS

119 Zuordnung zu Auffangklasse

120 Lernmodul

121 Trigger

122 Tokenisierer

123 T rigger-Definitionen

124 Klassifizierer

125 statistische Modell

126 Kommunikationsschnittstelle

130 Ergänzungsdatensatz

150 Pixelgruppe

152 Radius

154 Radius

160 Nutzdaten

162 Zugriffszertifikat

164 Zugriffszertifikat 166 Zugriffszertifikat

168 Nutzer-Zertifikat

170 verteiltes Datenbanksystem

172 ID-Datenbank

174 Nutzer-Zertifikat

176 Nutzer-Zertifikat

200 Computersystem

202 Speicher

204 Empfangsdatenbank

206 erstes Datenmodell

208 Datensätze

209 Token

210 zweites Datenmodell

211 Klasse

212 Index

213 Klassen-Zuordnung

214 Prozessor

215 Zeiger

216 Programminstruktionen

217 Trigger-Zuordnung

218 MM-DBMS

219 Zuordnung zu Auffangklasse

220 Lernmodul

221 Trigger

222 Tokenisierer

223 Trigger-Definitionen

224 Klassifizierer

225 statistische Modell

226 Kommunikationsschnittstelle F1, ... , F8 Felder

DS1 , ... , DS3 Datensätze K₁, ... , K₆ Knoten D₁, ..., D₆ Daten

I₁, ..., I₆ Index

E(I₁), E(l₂) Ergänzungsdatensatz

Claims

P a t e n t a n s p r ü c h e

1 . Computerimplementiertes Verfahren zum Implementieren eines datenbank- übergreifenden Index (1 12, 222) auf einem verteilten Datenbanksystem (170), wel- ches eine Mehrzahl von eigenständigen Einzeldatenbanken (104, 204) umfasst, wo- bei die Einzeldatenbanken über ein Netzwerk (180) kommunikativ miteinander ver- bunden sind,

wobei die Einzeldatenbanken jeweils von einem Multi-Modell-Datenbankma- nagementsystem (1 18, 218) verwaltet werden, wobei die Einzeldatenbanken jeweils eine Mehrzahl datenbankindividueller Datensätze (108, 208) umfassen, welche in einem dokumentenorientierten ersten Datenmodell (106, 206) der jeweiligen Einzel- datenbank gespeichert sind, wobei die gespeicherten Datensätze jeweils ein oder mehreren Feldwerte umfassen, wobei die einzelnen Feldwerte der gespeicherten Datensätze jeweils in einem Feld (F1 , ... , F8) gespeichert sind,

wobei die Einzeldatenbanken ferner jeweils einen durchsuchbaren ersten In- dex (1 12, 212) umfassen, welcher in einem zweiten Datenmodell (1 10) der jeweili- gen Einzeldatenbank gespeichert ist, wobei der Index der jeweiligen Einzeldaten- bank eine Mehrzahl von aus den Feldwerten der in dem dokumentenorientierten Datenmodell der entsprechenden Einzeldatenbank gespeicherten Datensätze er- zeugten Token (109, 209) umfasst, wobei die Token in dem Index jeweils mit einem oder mehreren Zeigern (1 15, 215) auf ein oder mehrere der in dem dokumentenori- entierten Datenmodell der entsprechenden Einzeldatenbank gespeicherten Datens- ätze verknüpft ist, aus deren Feldwerten das entsprechende Token erzeugt wurde, wobei das Verfahren umfasst:

• Empfangen eines zusätzlichen Datensatzes (108) durch eine erste Einzelda- tenbank als Quelldatenbank (104) zum Ergänzen von Datensätze der Quellda- tenbank,

• Speichern des zusätzlichen Datensatzes, welcher ein oder mehrere zusätzli- che Feldwerte umfasst, durch ein erstes Multi-Modell-Datenbankmanagement- system (1 18) der Quelldatenbank in einem dokumentenorientierten ersten Da- tenmodell (106) der Quelldatenbank, • Anwenden einer Datenverarbeitungsfunktion der Quelldatenbank auf den zu- sätzlichen Datensatz, wobei die Datenverarbeitungsfunktion zumindest eine Indexierung des zusätzlichen Datensatzes zum Speichern in einem zweiten Datenmodell (110) der Quelldatenbank umfasst, wobei die Indexierung um- fasst:

o Erzeugen von ein oder mehreren zusätzlichen Token (109) aus den zu- sätzlichen Feldwerten durch die Quelldatenbank,

o Ergänzen des Index (112) der Quelldatenbank durch das erste Multi-Mo- dell-Datenbankmanagementsystem unter Verwendung der zusätzlichen Token und eines Zeigers (115) auf den zusätzlichen in dem dokumenten- orientierten Datenmodell der Quelldatenbank gespeicherten Datensatz,

• Erstellen eines aus dem Anwenden der Datenverarbeitungsfunktion resultie- renden Ergänzungsdatensatzes (130), welcher die in dem Index der Quellda- tenbank vorgenommenen Ergänzungen umfasst, zum Ergänzen zumindest ei- nes zweiten Index zumindest einer zweiten Einzeldatenbank des verteilten Da- tenbanksystems als Empfangsdatenbank,

• Senden des Ergänzungsdatensatzes über das Netzwerk an die zweite Einzel- datenbank zur Integration in den zweiten Index (212) der Empfangsdatenbank (204).

2. Computerimplementiertes Verfahren nach Anspruch 1 , wobei das Ergänzen des Index umfasst:

• Abgleichen der zusätzlichen Token mit dem Index der Quelldatenbank,

3. Computerimplementiertes Verfahren nach einem der vorangehenden Ansprü- che, wobei der Ergänzungsdatensatz von der Quelldatenbank über das Netzwerk an eine vordefinierte erste Gruppe von ein oder mehreren Einzeldatenbanken der Mehrzahl von Einzeldatenbank als Empfangsdatenbanken gesendet wird, welche die zweite Einzeldatenbank umfasst.

4. Computerimplementiertes Verfahren nach einem der Ansprüche 1 bis 2, wo- bei der Ergänzungsdatensatz von der Quelldatenbank über das Netzwerk an alle weiteren von der Mehrzahl von Einzeldatenbanken umfassten Einzeldatenbanken als Empfangsdatenbanken gesendet wird.

5. Computerimplementiertes Verfahren nach einem der vorangehenden Ansprü- che, wobei eine vordefinierte zweite Gruppe von mehreren Einzeldatenbanken der Mehrzahl von Einzeldatenbank dazu konfiguriert ist, bei Empfang zusätzlicher Da- tensätze jeweils als eine Quelldatenbank zu fungieren.

6. Computerimplementiertes Verfahren nach einem der Ansprüche 1 bis 4, wo- bei alle Einzeldatenbanken der Mehrzahl von Einzeldatenbanken dazu konfiguriert sind, bei Empfang zusätzlicher Datensätze jeweils als eine Quelldatenbank zu fun- gieren.

7. Computerimplementiertes Verfahren nach einem der vorangehenden Ansprü- che, wobei der Quelldatenbank ein Sensor zugeordnet ist, wobei der zusätzliche Datensatz von dem Sensor erfasste Sensordaten umfasst.

8. Computerimplementiertes Verfahren nach einem der vorangehenden Ansprü- che, wobei jeder Einzeldatenbank der Mehrzahl von Einzeldatenbanken jeweils ein oder mehrere Sensoren zugeordnet sind, von welchen die jeweilige Einzeldaten- bank jeweils erfasste Sensordaten in Form zusätzlicher Datensätze empfängt.

9. Computerimplementiertes Verfahren nach einem der vorangehenden Ansprü- che, wobei die Datenverarbeitungsfunktion ferner ein Normalisieren der zusätzli- chen Token im Zuge des Ergänzens des Index der Quelldatenbank umfasst.

10. Computerimplementiertes Verfahren nach Anspruch 9, wobei das Normalisie- ren die fünfte und/oder sechste Normalform erfüllt.

11. Computerimplementiertes Verfahren nach einem der vorangehenden Ansprü- che, wobei die Datenverarbeitungsfunktion ferner ein Zuweisen von Rechten zum Verwalten und/oder Verarbeiten der Daten des zusätzlichen Datensatzes umfasst.

12. Computerimplementiertes Verfahren nach Anspruch 11 , wobei das erste Multi-Modell-Datenbankmanagementsystem einer der Quelldatenbank zugeordne- ten ersten Entität ein Eigner-Recht bezüglich des zusätzlichen Datensatz und/oder des Ergänzungsdatensatzes zuweist.

13. Computerimplementiertes Verfahren nach Anspruch 12, wobei es sich bei der ersten Entität um einen ersten Nutzer der Quelldatenbank oder ein erstes der Quell- datenbank zugeordnetes Computersystem handelt.

14. Computerimplementiertes Verfahren nach einem der Ansprüche 11 bis 13, wobei als Bestandteil des zusätzlichen Datensatz und/oder des Ergänzungsdaten- satzes Zugriffsberechtigungsnachweise (162, 164, 166) in der Quelldatenbank ge- speichert werden, wobei die Zugriffsberechtigungsnachweise ein oder mehrere der folgenden Zugriffsberechtigungsnachweise umfassen:

• ein Lesezugriffs-Berechtigungsnachweis (162), welcher einen lesenden Zu- griff auf den Inhalt eines Datensatzes ermöglicht;

• ein Schreibzugriffs- Berechtigungsnachweis (164), welcher modifizierenden Zugriff auf den Inhalt eines Datensatzes ermöglicht;

• ein Indexzugriffs- Berechtigungsnachweis (166), welcher Kenntnis der Exis- tenz des Datensatzes in der den Datensatz beinhaltenden Datenbank und ei- nen lesenden Zugriff auf Metadaten des Datensatzes ermöglicht.

15. Computerimplementiertes Verfahren nach Anspruch 14, wobei als Bestand- teil des zusätzlichen Datensatzes und/oder des Ergänzungsdatensatzes für die erste Entität ein Lesezugriffs-Berechtigungsnachweis (162), ein Schreibzugriffs-Be- rechtigungsnachweis (164) und ein Indexzugriffs-Berechtigungsnachweis (166) ge- speichert werden.

16. Computerimplementiertes Verfahren nach einem der Ansprüche 11 bis 15, wobei ferner einer der Empfangsdatenbank zugeordnete zweite Entität ein Indexzu- griffs-Berechtigungsnachweis (166) für den zusätzlichen Datensatz zugeordnet wird.

17. Computerimplementiertes Verfahren nach Anspruch 16, wobei es sich bei der zweiten Entität um einen zweiten Nutzer der Empfangsdatenbank oder ein zweites der Empfangsdaten zugeordnetes Computersystem handelt.

18. Computerimplementiertes Verfahren nach einem der Ansprüche 16 bis 17, wobei eine Voraussetzung für das Senden des Ergänzungsdatensatzes an die Empfangsdatenbank eine erfolgreiche Prüfung ist, dass der zweiten Entität ein In- dexzugriffs-Berechtigungsnachweis für den Ergänzungsdatensatz zugeordnet ist.

19. Computerimplementiertes Verfahren nach einem der vorangehenden Ansprü- che, wobei die Datenverarbeitungsfunktion ferner ein Klassifizieren der aus dem zu- sätzlichen Datensatz erzeugten Token umfasst.

20. Computerimplementiertes Verfahren nach Anspruch 19, wobei die Quellda- tenbank für das Klassifizieren ein vortrainierten Lernmoduls (120) zum maschinellen Lernen umfasst, wobei das vortrainierte Lernmodul eine Mehrzahl von vorbestimm- ten Trigger-Definitionen (123) umfasst, welche Trigger (121 ) für ein Zuordnen von Token zu Klassen einer ersten Gruppe von Klassen definieren,

wobei erste Token in dem Index der Quelldatenbank, welche von einer der Trigger-Definitionen der Quelldatenbank als Trigger umfasst sind, jeweils der ent- sprechen Trigger-Definition zugeordnet sind, wobei zweite Token in dem Index der Quelldatenbank jeweils ein oder mehreren Klassen der ersten Gruppe von Klassen zugeordnet sind,

wobei das Klassifizieren umfasst:

• Verwenden der identifizierten Trigger zum Zuordnen von ein oder mehreren zweiten zusätzlichen Token zu ein oder mehreren Klassen der ersten Gruppe von Klassen durch das Lernmodul, falls die entsprechenden zweiten zusätzli- chen Token von dem zusätzliche Datensatz in einer Kombination mit ein oder mehreren der identifizierten Trigger gemäß einer der Trigger-Definitionen um- fasst sind, wobei die entsprechenden Trigger gemäß der entsprechenden Trig- ger-Definition eine entsprechende Klassenzuordnung triggern,

wobei das Ergänzen des Index durch das erste Multi-Modell-Datenbankmana- gementsystem unter Verwendung der Klassenzuordnungen der zusätzlichen Token erfolgt.

21. Computerimplementiertes Verfahren nach Anspruch 20, wobei verbleibende Token, welche weder den Trigger-Definition noch ein oder mehreren Klassen der ersten Gruppe von Klassen zugeordnet sind, in dem Index der Quelldatenbank zum Kennzeichnen der entsprechenden verbleibenden Token als unbekannte Daten ei- ner Auffangklasse zugeordnet sind, wobei die Zuordnung zu der Auffangklasse eine Zuordnung zu einer der Trigger-Definitionen ebenso wie eine Zuordnung zu einer der Klassen der ersten Gruppe von Klassen ausschließt,

wobei das Klassifizieren ferner umfasst:

22. Computerimplementiertes Verfahren nach einem der Ansprüche 20 bis 21 , wobei, falls eines der zusätzlichen Token nicht von dem Index umfasst ist, das Er- gänzen des entsprechenden zusätzlichen Tokens unter seinen Klassenzuordnungen in dem Index erfolgt, und, falls eine der Klassenzuordnungen eines von dem Index umfassten zusätzlichen Tokens von dem Index nicht umfasst ist, ein Ergänzen der entsprechenden Klassenzuordnung mit dem entsprechenden zusätzlichen Token in dem Index und Verknüpfen des entsprechenden zusätzlichen Tokens in dem Index mit dem Zeiger auf den zusätzlichen in dem dokumentenorien- tierten Datenmodell gespeicherten Datensatz erfolgt.

23. Computerimplementiertes Verfahren nach einem der vorangehenden Ansprü- che, wobei die Zeiger, mit denen die Token in dem Index verknüpft gespeichert sind, jeweils auf ein oder mehrere der Feldwerte in den gespeicherten Datensätze verweisen.

24. Computerimplementiertes Verfahren nach einem der vorangehenden Ansprü- che, wobei die Feldwerte des zusätzlichen Datensatzes Textdaten, Bilddaten, Audi- odaten und/oder Videodaten umfassen.

25. Computerimplementiertes Verfahren nach einem der vorangehenden Ansprü- che, wobei das Erzeugen der Token ein Anwenden einer Tokenisierungslogik (122) auf die Feldwerte des zusätzlichen Datensatzes umfasst, welche einen Volltextindi- zierer umfasst, der dazu konfiguriert ist, Texte in Wörter zu zerlegen und die Wörter als Token auszugeben.

26. Computerimplementiertes Verfahren nach einem der Ansprüche 1 bis 24, wo- bei das Erzeugen der Token ein Anwenden einer Tokenisierungslogik (122) auf die Feldwerte des zusätzlichen Datensatzes umfasst, welche einen generischen Toke- nisierer umfasst, der dazu konfiguriert ist, in den Feldwerten Daten unterschiedli- chen Datentyps zu erkennen und aus diesen Token in unterschiedlichen Datenty- pen zu erzeugen.

27. Computerimplementiertes Verfahren nach einem der vorangehenden Ansprü- che, wobei es sich zumindest bei dem von dem Multi-Modell- Datenbankmanagementsystem zum Speichern der Datensätze verwendeten doku- mentenbasierten Datenmodellen um ein NoSQL-Datenmodellen handelt.

28. Computerimplementiertes Verfahren nach einem der vorangehenden Ansprü- che, wobei das maschinelle Lernen konfiguriert ist für eine Datenextraktion, Konsis- tenzprüfung, Bilderkennung, Spracherkennung, Sprachsteuerung, Vorrichtungs- überwachung und/oder autonome Vorrichtungssteuerung.

29. Computerimplementiertes Verfahren nach einem der vorangehenden Ansprü- che, wobei das Verfahren ferner umfasst:

30. Computerimplementiertes Verfahren nach einem der vorangehenden Ansprü- che, wobei das Verfahren ferner umfasst:

• Durchsuchen des Index der ersten Einzeldatenbank nach dem Suchwert,

31. Quellcomputersystem (100) zum Implementieren eines datenbankübergrei- fenden Index (112, 222) auf einem verteilten Datenbanksystem (170), welches eine das Quellcomputersystem umfassende Mehrzahl von Computersystemen (100,

200) mit jeweils einer eigenständigen Einzeldatenbank (104, 204) umfasst, wobei die Computersysteme mit den Einzeldatenbanken über ein Netzwerk (180) kommu- nikativ miteinander verbunden sind,

wobei die Computersysteme ferner jeweils ein oder mehrere Prozessoren (114, 214), ein oder mehrere Datenspeichermedien (102, 202), auf welchen die je- weilige Einzeldatenbank bereitgestellt wird, eine Kommunikationsschnittstelle (126, 226) zur Kommunikation über das Netzwerk sowie eine Programmlogik (116, 216) umfassen,

wobei die Einzeldatenbanken jeweils von einem Multi-Modell-Datenbankma- nagementsystem (118, 218) verwaltet werden, wobei die Einzeldatenbanken jeweils eine Mehrzahl datenbankindividueller Datensätze (108, 208) umfassen, welche in einem dokumentenorientierten ersten Datenmodell (106, 206) der jeweiligen Einzel- datenbank gespeichert sind, wobei die gespeicherten Datensätze jeweils ein oder mehreren Feldwerte umfassen, wobei die einzelnen Feldwerte der gespeicherten Datensätze jeweils in einem Feld (F1 , ... , F8) gespeichert sind, wobei die Einzeldatenbanken ferner jeweils einen durchsuchbaren ersten In- dex (112, 212) umfassen, welcher in einem zweiten Datenmodell (110) der jeweili- gen Einzeldatenbank gespeichert ist, wobei der Index der jeweiligen Einzeldaten- bank eine Mehrzahl von aus den Feldwerten der in dem dokumentenorientierten Datenmodell der entsprechenden Einzeldatenbank gespeicherten Datensätze er- zeugten Token (109, 209) umfasst, wobei die Token in dem Index jeweils mit einem oder mehreren Zeigern (115, 215) auf ein oder mehrere der in dem dokumentenori- entierten Datenmodell der entsprechenden Einzeldatenbank gespeicherten Datens- ätze verknüpft ist, aus deren Feldwerten das entsprechende Token erzeugt wurde, wobei die Programmlogik (116) des Quellcomputersystems zum Ausführen eines Verfahrens zum Implementieren eines datenbankübergreifenden Index konfi- guriert ist, wobei das Verfahren umfasst:

• Speichern des zusätzlichen Datensatzes, welcher ein oder mehrere zusätzli- che Feldwerte umfasst, durch ein erstes Multi-Modell-Datenbankmanagement- system (118) der Quelldatenbank in einem dokumentenorientierten ersten Da- tenmodell (106) der Quelldatenbank,

• Anwenden einer Datenverarbeitungsfunktion der Quelldatenbank auf den zu- sätzlichen Datensatz, wobei die Datenverarbeitungsfunktion zumindest eine Indexierung des zusätzlichen Datensatzes zum Speichern in einem zweiten Datenmodell (110) der Quelldatenbank umfasst, wobei die Indexierung um- fasst:

• Erstellen eines aus dem Anwenden der Datenverarbeitungsfunktion resultie- renden Ergänzungsdatensatzes (130), welcher die in dem Index der Quelldatenbank vorgenommenen Ergänzungen umfasst, zum Ergänzen zu- mindest eines zweiten Index zumindest einer zweiten Einzeldatenbank des verteilten Datenbanksystems als Empfangsdatenbank,

32. Verteiltes Datenbanksystem (170) zum Implementieren eines datenbanküber- greifenden Index (112, 222) auf dem verteilten Datenbanksystem, welches eine das Mehrzahl von Computersystemen mit jeweils einer eigenständigen Einzeldatenbank umfasst, wobei die Computersysteme mit den Einzeldatenbanken über ein Netz- werk kommunikativ miteinander verbunden sind,

wobei die Einzeldatenbanken jeweils von einem Multi-Modell-Datenbankmana- gementsystem (118, 218) verwaltet werden, wobei die Einzeldatenbanken jeweils eine Mehrzahl datenbankindividueller Datensätze (108, 208) umfassen, welche in einem dokumentenorientierten ersten Datenmodell (106, 206) der jeweiligen Einzel- datenbank gespeichert sind, wobei die gespeicherten Datensätze jeweils ein oder mehreren Feldwerte umfassen, wobei die einzelnen Feldwerte der gespeicherten Datensätze jeweils in einem Feld (F1 , ... , F8) gespeichert sind,

wobei die Einzeldatenbanken ferner jeweils einen durchsuchbaren ersten In- dex (112, 212) umfassen, welcher in einem zweiten Datenmodell (110) der jeweili- gen Einzeldatenbank gespeichert ist, wobei der Index der jeweiligen Einzeldaten- bank eine Mehrzahl von aus den Feldwerten der in dem dokumentenorientierten Datenmodell der entsprechenden Einzeldatenbank gespeicherten Datensätze er- zeugten Token (109, 209) umfasst, wobei die Token in dem Index jeweils mit einem oder mehreren Zeigern (115, 215) auf ein oder mehrere der in dem dokumentenorientierten Datenmodell der entsprechenden Einzeldatenbank gespei- cherten Datensätze verknüpft ist, aus deren Feldwerten das entsprechende Token erzeugt wurde,

wobei die Programmlogik jeweils zum Ausführen eines Verfahrens zum Implemen- tieren eines datenbankübergreifenden Index durch das die Programmlogik ausfüh- rende Computersystem der Mehrzahl von Computersystemen konfiguriert ist, wel- ches als ein Quellcomputersystem (100) fungiert, wobei das Verfahren umfasst:

• Erstellen eines aus dem Anwenden der Datenverarbeitungsfunktion resultie- renden Ergänzungsdatensatzes (130), welcher die in dem Index der Quellda- tenbank vorgenommenen Ergänzungen umfasst, zum Ergänzen zumindest ei- nes zweiten Index zumindest einer zweiten Einzeldatenbank des verteilten Da- tenbanksystems als Empfangsdatenbank, • Senden des Ergänzungsdatensatzes über das Netzwerk an die zweite Einzel- datenbank zur Integration in den zweiten Index (212) der Empfangsdatenbank (204).