WO2013123543A1

WO2013123543A1 - Verfahren zur fehlererkennung in einem system-of-systems

Info

Publication number: WO2013123543A1
Application number: PCT/AT2013/050043
Authority: WO
Inventors: Stefan Poledna
Original assignee: FTS Computertechnik GmbH
Current assignee: FTS Computertechnik GmbH
Priority date: 2012-02-22
Filing date: 2013-02-20
Publication date: 2013-08-29
Anticipated expiration: 2014-08-22
Also published as: US9575859B2; US20150012779A1; EP2791801A1; EP2791801B1

Description

VERFAHREN ZUR FEHLERERKENNUNG IN EINEM SYSTEM-OF-SYSTEMS

Die Erfindung betrifft ein Verfahren zur Fehlererkennung in einem Fault-Containments- Units (FCUs) umfassenden verteilten Echtzeitcomputersystem, insbesondere einem fehlertoleranten System-of-Systems (SoS), welches über eine globale Zeitbasis verfügt.

Weiters betrifft die Erfindung ein verteiltes Echtzeitcomputersystem, insbesondere ein System-of-Systems, umfassend Fault-Containments-Units.

Außerdem betrifft die Erfindung eine Nachrichtenverteileinheit für ein solches Echtzeitcomputersystem.

Die vorliegende Erfindung liegt im Bereich der Computertechnik. Sie beschreibt ein innovatives Verfahren, wie in einem verteilten Echtzeitcomputersystem, insbesondere in einem System-of-Systems die funktionale Verarbeitung und die Fehlererkennung parallelisiert werden können, um die Fehlertoleranz zu verbessern und die Antwortzeit zu verkürzen.

Ein verteiltes Echtzeitcomputersystem, insbesondere ein System-of-Systems (SoS), das aus einer Vielzahl von autonomen Subsystemen besteht, muss Fehler von Subsystemen erkennen und nach Möglichkeit tolerieren. Erfahrungsgemäß ist die überwiegende Anzahl der Fehlerursachen in einem SoS transient. Ein Fehlerursache wird als transient bezeichnet, wenn sie nur kurzzeitig auftritt, eine Datenstruktur beschädigt, aber die zukünftige Funktionsfähigkeit der Hardware nicht beeinträchtigt. Beispiele für transiente Fehlerursachen sind Neutronen aus der Höhenstrahlung, kurzzeitige Störungen in der Stromversorgung oder Heisenbugs [6, p.138] in der Software.

Der erste Schritt in der Fehlerbehandlung ist die Fehlererkennung. Eine klare Trennung der Aufgaben von Verarbeitung und Fehlererkennung ist notwendig, um die Unabhängigkeit der Fehlererkennung von einem fehlerhaften Verarbeitungssystem zu garantieren. Diese Unabhängigkeit ist gewährleistet, wenn die Verarbeitung und die Fehlererkennung in getrennten Fault-Containment Units (FCU) (wie in [6, p.136] ausführlich beschrieben) vorgenommen wird. Im Folgenden wird ein unabhängiges autonomes Subsystem FCU genannt. In einem großen fehlertoleranten SoS wird zwischen folgenden FCUs unterschieden: (i) Sensor FCUs (SFCU), die mittels Sensoren Daten der Umgebung einlesen und diese Daten vorverarbeiten, (ii) Verarbeitungs FCUs (VFCU), die Ergebnisse von mehreren Sensor FCUs fusionieren und weiter verarbeiten, (iii) Ausgabe FCUs (AFCU), die mittels Aktuatoren Daten an die Umgebung ausgeben, und (iv) Monitor FCUs (MFCU), die Ergebnisse der SFCUs, VFCUs und AFCUs überprüfen, um Fehler zu erkennen. Es wird angenommen, dass alle FCUs auf eine globale Zeitbasis zugreifen können. Die FCUs kommunizieren über Vermittlungseinheiten ausschließlich mittels Nachrichten. Eine Vermittlungseinheit kann eine eintreffende Nachricht von einer Sender FCU an eine oder mehrere Empfänger FCUs vermitteln. Der Zeitpunkt der Vermittlung einer Nachricht wird Vermittlungszeitpunkt der Nachricht genannt.

Es ist eine Aufgabe der Erfindung, anzugeben, wie in einem Echtzeitcomputer System, insbesondere einen SoS die Parallelisierung von Verarbeitung und Fehlererkennung bei einer gleichlaufenden Verbesserung des Antwortzeitverhaltens realisiert werden kann.

Insbesondere ist es eine Aufgabe der Erfindung, anzugeben, wie in einem großen Echtzeitcomputersystem, insbesondere einem großen SoS, z.B. einem zyklisch arbeitenden verteilten fehlertoleranten SoS die Parallelisierung von Verarbeitung und Fehlererkennung bei einer gleichlaufenden Verbesserung des Antwortzeitverhaltens realisiert werden kann.

Diese Aufgabe wird mit einem eingangs erwähnten Verfahren dadurch gelöst, dass erfindungsgemäß die Fault-Containments-Units mittels Nachrichten über mindestens eine Nachrichtenverteileinheit kommunizieren, wobei mit einer von einer Fault-Containments-Unit gebildeten Nachricht ein Kommitmentzeitpunkt assoziiert ist, und wobei eine Nachrichtenverteileinheit, die eine Nachricht empfängt, die Nachricht an eine oder mehrere parallel arbeitende Fault-Containments-Units weiterleitet, und wobei eine Verarbeitungs-Fault- Containments-Unit (VFCU) keines ihrer Resultate, die von einer oder mehreren der empfangenen Nachrichten beeinflusst sind, vor dem mit den empfangenen Nachrichten assoziierten Kommitmentzeitpunkten an die Umgebung der Verarbeitungs-Fault-Containments-Unit sendet oder zur Veränderung des inneren Zustands der Verarbeitungs-Fault-Containments- Unit verwendet. Weiters wird die oben erwähnte Aufgabe mit einer Nachrichtenverteileinheit zur Vermittlung von Nachrichten in einem verteilten Echtzeitcomputersystem, insbesondere einem fehlertoleranten System-of-Systems (SoS), welches Fault-Containments-Units (FCUs) umfasst und welches über eine globale Zeitbasis verfügt, wobei die Fault-Containments-Units mittels Nachrichten über die zumindest eine Nachrichtenverteileinheit kommunizieren, wobei mit einer von einer Fault-Containments-Unit gebildeten Nachricht ein Kommitmentzeitpunkt assoziiert ist, und wobei eine Nachrichtenverteileinheit, die eine Nachricht empfängt, die Nachricht an eine oder mehrere parallel arbeitende Fault-Containments-Units weiterleitet, wobei erfindungsgemäß die Nachrichtenverteileinheit dazu eingerichtet ist, eine eintreffende Nachricht zu kopieren und eine Kopie der Nachricht sofort an eine Monitor-Fault- Containments-Unit zu senden und eine zweite Kopie der Nachricht bis zu einem mit der Nachricht assoziierten Kommitmentzeitpunkt zu verzögern, bevor die zweite Kopie der Nachricht von der Nachrichtenverteileinheit an die folgende Verarbeitungs-Fault- Containments-Units gesendet wird.

Außerdem wird diese Aufgabe auch noch mit einem verteilten Echtzeitcomputersystem, insbesondere einem fehlertoleranten System-of-Systems (SoS), welches Fault-Containments- Units (FCUs) umfasst und welches über eine globale Zeitbasis sowie zumindest eine oben erwähnte Nachrichtenverteileinheit zur Vermittlung von Nachrichten verfügt, gelöst, wobei die Fault-Containments-Units mittels Nachrichten über die zumindest eine Nachrichtenverteileinheit kommunizieren, wobei mit einer von einer Fault-Containments-Unit gebildeten Nachricht ein Kommitmentzeitpunkt assoziiert ist, und wobei eine Nachrichtenverteileinheit, die eine Nachricht empfängt, die Nachricht an eine oder mehrere parallel arbeitende Fault-Containments-Units weiterleitet, und wobei erfindungsgemäß die Nachrichtenverteileinheit dazu eingerichtet ist, eine eintreffende Nachricht zu kopieren und eine Kopie der Nachricht sofort an eine Monitor-Fault-Containments-Unit zu senden und eine zweite Kopie der Nachricht bis zu einem mit der Nachricht assoziierten Kommitmentzeitpunkt zu verzögern, bevor die zweite Kopie der Nachricht von der Nachrichtenverteileinheit an die folgende Verarbeitungs-Fault-Containments-Units gesendet wird.

Von Vorteil kann es dabei sein, wenn der mit einer Nachricht assoziierte Kommitmentzeitpunkt in der Nachricht enthalten ist. Es kann aber auch von Vorteil sein, wenn der mit einer Nachricht assoziierte Kommitment- zeitpunkt aus dem a priori festgelegten zeitgesteuerten Zeitplan der Fault-Containments- Units abgeleitet wird.

Zweckmäßig ist es, wenn zwischen Verarbeitungs-Fault-Containments-Units (VFCUs) und Monitor-Fault-Containments-Units (MFCUs) unterschieden wird, wobei die Nachrichtenverteileinheit eine oder mehrere Nachrichten einer Sensor-Fault-Containments-Unit (SFCU) an eine oder mehrere designierte Verarbeitungs-Fault-Containments-Units und zusätzlich an eine oder mehrere Monitor-Fault-Containments-Units weiterleitet, und wobei eine Monitor- Fault-Containments-Unit den Inhalt der empfangenen Nachrichten überprüft und, falls in einer Nachricht ein Fehler festgestellt wird, vor dem mit der Nachricht assoziierten Kom- mitmentzeitpunkt eine Fehlernachricht an die eine oder die mehreren designierten Verarbei- tungs-Fault-Containments-Units sendet, so dass die eine oder die mehreren designierten Verarbeitungs-Fault-Containments-Units alle von der fehlerhaften Nachricht beeinflussten Resultate vor dem Kommitmentzeitpunkt verwerfen können.

Mit Vorteil ist vorgesehen, dass in einem zyklisch arbeitenden Echtzeitcomputer System, insbesondere einem zyklisch arbeitenden System-of-Systems eine designierte Verarbeitungs- Fault-Containments-Unit ein in einem Zyklus aufgrund eines Fehlers verworfenes Resultat durch das Resultat des vorangegangen Zyklus ersetzt.

Außerdem kann vorgesehen sein, dass in einem Zyklus eine Vielzahl von Fault- Containments-Units, die Sensordaten übernehmen können, Nachrichten mit dem gleichen Kommitmentzeitpunkt bilden, wobei mehrere oder alle dieser Nachrichten über eine oder mehrere Nachrichtenverteileinheiten an eine oder mehrere Verarbeitungs-Fault- Containments-Units und an eine oder mehrere Monitor-Fault-Containments-Units gesendet werden, und wobei die Verarbeitungs-Fault-Containments-Units keine Resultate, die von einer dieser Nachrichten beeinflusst sind, vor dem mit den Nachrichten assoziierten Kommitmentzeitpunkt an die Umgebung einer Verarbeitungs-Fault-Containments-Unit sendet oder zur Veränderung des inneren Zustands einer Verarbeitungs-Fault-Containments-Unit verwendet.

Weiters kann vorgesehen sein, dass die Verteilereinheit empfangene Nachrichten sofort an die Monitor-Fault-Containments-Units weiterleitet, jedoch die Weiterleitung der Nachrichten an die Verarbeitungs-Fault-Containments-Units bis zum Kommitmentzeitpunkt verzögert, wobei im Falle eines erkannten Fehlers die Monitor-Fault-Containments-Units vor dem Kommitmentzeitpunkt eine Fehlernachricht an die Verteilereinheit senden, so dass die Verteilereinheit die fehlerhaften Nachrichten verwerfen kann und nicht an die Verarbei- tungs-Fault-Containments-Units weiterleitet.

Außerdem kann es von Vorteil sein, wen die eine Fehlernachricht empfangende Verarbei- tungs-Fault-Containments-Unit nach einer Analyse der in der Fehlernachricht enthaltenen Beschreibung des Fehlers entscheidet, ob in diesem Zyklus die Resultate an die Umgebung der Verarbeitungs-Fault-Containments-Unit gesendet oder zur permanenten Veränderung des inneren Zustands der Verarbeitungs-Fault-Containments-Unit verwendet werden.

Die Grundidee der vorliegenden Erfindung besteht darin, dass mit einer Nachricht, die das Ergebnis einer FCU zur Weiterverarbeitung in der folgenden VFCU transportiert, ein Kommitmentzeitpunkt assoziiert wird, welcher angibt, wann Resultate, die von der VFCU auf der Basis der empfangenen Nachricht berechnet werden, frühestens an die Umgebung der VFCU ausgegeben oder in den inneren Zustand der VFCU geschrieben werden dürfen. Eine Nachricht wird zum Vermittlungszeitpunkt quasi gleichzeitig an eine oder mehrere VFCUs und MFCUs gesendet. Im Zeitintervall zwischen dem Vermittlungszeitpunkt und dem Kommitmentzeitpunkt wird die Nachricht von den VFCUs weiterverarbeitet und parallel dazu von der oder den MFCUs überprüft. Wenn eine MFCU einen Fehler erkennt, wird von der MFCU vor dem Kommitmentzeitpunkt eine Fehlernachricht an die entsprechende VFCUs gesendet, so dass die VFCUs die fehlerhaften Resultate vor dem Kommitmentzeitpunkt verwerfen können. Damit wird verhindert, dass eine Fehlerfortpflanzung in die Umgebung oder in den nächsten Verarbeitungszyklus stattfindet.

Jede FCU ist eingebettet in ein Umfeld, das Nachrichten von dieser FCU empfängt. Der Begriff„Umgebung" einer FCU umfasst somit alle Empfänger von Nachrichten einer gegebenen FCU.

Es wird angenommen, dass jeder Zyklus mit dem Lesen der Sensordaten von einer oder mehreren SFCUs beginnt. Nach Vorverarbeitung der Sensordaten in den SFCUs werden die Ergebnisse in Form von Nachrichten an eine oder mehrere VFCUs, MFCUs und schließlich AFCUs weitergeleitet, die die endgültigen Resultate an die Aktuatoren ausgegeben. In jeder FCU wird in jedem Zyklus eine spezielle Datenstruktur verwaltet, in der alle Daten enthalten sind, die von einem Zyklus an den folgenden Zyklus übergeben werden. Diese Datenstruktur, die am Ende jedes Zyklus definiert ist, wird innerer Zustand der FCU genannt [6, p.84]. Ein Fehler in der Verarbeitung einer FCU kann nur wirksam werden, wenn von der FCU fehlerhafte Resultate an die Umgebung ausgegeben werden oder wenn ein fehlerhafter innerer Zustand dem folgenden Zyklus der FCU übergeben wird.

Die unabhängige Realisierung von VFCUs und MFCUs wird in einer Anzahl von Patenten angesprochen, z.B. in [1], [3], und [5]. In diesen Patenten beobachten die MFCUs die Ergebnisse der VFCUs ohne sofort zu verhindern, dass ein erkannter Fehler in einer VFCU in der Umgebung der VFCU wirksam wird. Durch die Einführung eines Kommitmentzeitpunkts und die Verzögerung der Ausgabe einer VFCU bis zu diesem Kommitmentzeitpunkt ermöglicht es die vorliegende Erfindung die Ausbreitung eines erkannten Fehlers in die Umgebung einer VFCU zu verhindern.

Die Erfindung wird an Hand der folgenden, beispielhaften Zeichnung näher erörtert. In dieser zeigt

Fig. 1 ein SoS mit drei Sensor FCUs und einer Verarbeitungs FCU, und

Fig. 2 die Realisierung des Systems von Fig. 1 in einem Multiprocessor System-on-Chip (MPSoC).

Das folgende konkrete Beispiel behandelt eine der vielen möglichen Realisierungen des neuen Verfahrens.

In Fig. 1 ist ein zeitgesteuertes zyklisches SoS mit drei Sensoren 101, 104, 107, einem Aktuator 171, Sensor FCUS (SFCUs) 102, 105, 108, einer Monitor FCU (MFCU) 120, einer Verarbeitungs FCU (VFCU) 130, einer Ausgabe FCU (AFCU) 170 sowie einer Vermittlungseinheit 110 dargestellt. Es wird angenommen, dass alle FCUs auf eine globale Zeit mit bekannter Präzision zugreifen können. Der Aufbau einer solchen globalen Zeit ist in [6, Kapitel 3] genau beschrieben. Der Sensor 101 wird von der SFCU 102, der Sensor 104 von der SFCU 105 und der Sensor 107 von der SFCU 108 verwaltet. Am Beginn eines neuen Zyklus lesen die SFCUs 102, 105, 108 die Sensordaten. Nach der Vorverarbeitung der Sensordaten durch die entspre- chenden SFCUs sendet die SFCU 102 eine Nachricht über einen Kanal 103 an die Vermittlungseinheit 110. Analog sendet die SFCU 105 eine Nachricht über einen Kanal 106 und die SFCU 108 über Kanal 109 eine Nachricht an die Vermittlungseinheit 110. Die Vermittlungseinheit 110 sendet die Nachrichten zu dem in einem zeitgesteuerten System vorab spezifizierten zyklischen Vermittlungszeitpunkt über den Kanal 112 an die VFCU 130 und parallel dazu über den Kanal 111 an die MFCU 120. Die Vermittlungseinheit 110 kann durch einen TTEthernet Switch, wie in [2], [7] beschrieben, oder durch einen Multirouter [3] realisiert werden. Die Nachricht enthält einen Kommitmentzeitpunkt, der angibt, zu welchem frühesten Zeitpunkt die VFCU 130 ein von den drei Nachrichten beeinflusstes Resultat über den Kanal 131 an die AFCU 170 weiterleiten darf. Die VFCU 130 darf ihren inneren Zustand erst nach dem Kommitmentzeitpunkt neu beschreiben. Alternativ kann in einem zeitgesteuerten System der mit einer Nachricht assoziierte Kommitmentzeitpunkt aus dem a priori festgelegten zyklischen Zeitplan der FCUs abgeleitet werden und a priori zum Zeitpunkt des Systemstarts der VFCU 130 und der MFCU 120 mitgeteilt werden. Der Kommitmentzeitpunkt muss dann nicht in der Nachricht enthalten sein.

Nach Empfang der Nachrichten der SFCUs 102, 105, 108 führt die VFCU 130 unter Bezugnahme auf ihren aktuellen inneren Zustand eine Sensor Fusion durch und berechnet ein neues Resultat zur Weitergabe an die AFCU 170 und einen neuen inneren Zustand für den nächsten Zyklus. Falls diese Resultate vor dem Kommitmentzeitpunkt vorliegen, wird die Ausgabe der Resultate von der VFCU 130 bis zum Kommitmentzeitpunkt verzögert. Parallel zur Verarbeitung der Nachrichten der drei SFCUs 102, 105, 108 in der VFCU 130 überprüft die MFCU 120, ob die Nachrichten der drei SFCUs 102, 105, 108 ein sinnvolles Bild der Umgebung zeichnen oder ob eine oder mehrere der Nachrichten fehlerhaft sind. Ein erkannter Fehler wird in Form einer Fehlernachricht vor dem Kommitmentzeitpunkt über den Kanal 111, der Vermittlungseinheit 110 und dem Kanal 112 an die VFCU 130 gesendet. Wenn die VFCU eine Fehlernachricht von der MFCU 120 empfängt, so analysiert die VFCU 130 die in der Nachricht enthaltene Fehlerbeschreibung und entscheidet, ob die in diesem Zyklus errechneten Resultate verworfen werden müssen. Im Falle, dass die VFCU 130 die Resultate verwirft, bleibt ihr innerer Zustand unverändert und es wird in diesem Zyklus kein neuer Wert an die AFCU 170 zur Ausgabe an den Aktuator 171 weitergegeben.

In vielen zyklischen Echtzeitanwendungen der Regelungstechnik oder im Multimediabereich wird der Ausfall eines Zyklus durch die Anwendung toleriert. Durch die offengelegte Erfindung wird verhindert, dass ein transienter Fehler durch die Beschädigung des inneren Zustands einer FCU zu einem permanenten Fehler wird oder durch die Ausgabe eines fehlerhaften Resultats ein Schaden in der Umgebung entsteht.

Fig. 2 zeigt eine Realisierung des beschriebenen Verfahrens mittels eines Multiprocessor System on Chip (MPSoC). Der MPSoC 200 beinhaltet die SFCUs 102, 105, 108 als IP-cores. Die Vermittlungseinheit 110 ist als Network-on-Chip ausgeführt. Neben der MFCU 120 ist eine weitere MFCU 125 als IP-core realisiert. Die VFCU 130 ist ebenfalls ein eigenständiges IP-core. Die AFCU 170, die den Aktuator 171 ansteuert, ist als getrenntes Subsystem implementiert. Das neue Verfahren lässt sich somit sehr effizient auf einem MPSoC realisieren und nützt die inhärente Parallelität von MPSoCs.

Das offengelegte Verfahren kann auch in der Verteilereinheit 110 implementiert werden. In diesem Fall werden die Nachrichten der SFCUs 102, 105, 108 von der Verteilereinheit sofort an die MFCU 120 weitergeleitet, jedoch wird die Weiterleitung dieser Nachrichten an die VFCU 130 durch die Verteilereinheit 110 bis zum Kommitmentzeitpunkt verzögert. Wenn vor dem Kommitmentzeitpunkt eine Fehlernachricht von der MFCU 120 in der Verteilereinheit 110 eintrifft, so verwirft die Verteilereinheit die noch im Speicher der Verteilereinheit vorhandene Nachrichten der SFCUs 102, 105, 108. In einem zeitgesteuerten System realisiert diese Implementierung die Abstraktion eines fail-silent Sensorsystems, d.h. das Sensorsystem sendet entweder richtige Nachrichten oder keine Nachrichten. Eine alternative Implementierung der faü-süence, die von Teilen der Industrie verfolgt wird, setzt zu diesem Zweck self- checking Hardware ein. Das offengelegte Verfahren hat gegenüber der self-checking Hardware den Vorteil, dass nicht nur digitale Hardwarefehler auf der Hardwareebene, sondern zusätzlich auch die wesentlich häufigeren Fehler der Sensoren und Softwarefehler auf Systemebene erkannt werden können.

Wenn neben den transienten Fehlerursachen auch permanente Hardwarefehler toleriert werden müssen, so ist der Einsatz von redundanter Hardware erforderlich. Entsprechend der spezifizierten Fehlerhypothese müssen die Sensoren, die FCUs, die Vermittlungseinheiten und die Kommunikationskanäle redundant ausgelegt werden. Das offen gelegte Verfahren zur Fehlererkennung und Fehlerbehandlung kann auch beim Einsatz von redundanter Hardware angewendet werden. Erfahrungsgemäß beansprucht in vielen Echtzeitsystemen die Fehlererkennung einen vergleichbaren Aufwand wie die zur Verarbeitung. Die klare Trennung und Parallelanordnung von Verarbeitungsfunktion und Fehlererkennungsfunktion bietet im Vergleich zur üblichen Serienanordnung innerhalb einer einzigen FCU folgende technische und wirtschaftliche Vorteile:

• Zusätzlich zur offensichtlichen Verkürzung der Antwortzeit wird auch die Zuverlässigkeit verbessert, da die VFCUs verkleinert werden und ein fail-silent Ausfall einer MFCU (die dominante Ausfallart der Hardware) keinen Ausfall der Verarbeitungsfunktion bedingt.

• Die Wahrscheinlichkeit für das Auftreten von korrelierten Fehlern wird reduziert und damit die Sicherheit erhöht.

• Die Parallelanordnung von Verarbeitungsfunktion und Fehlererkennungs-funktion erleichtert eine Implementierung auf einem MPSoC.

• Die Unabhängigkeit der Funktionen reduziert die Systemkomplexität und führt damit zu einer Reduktion der Entwicklungs- und Validierungskosten.

Die vorliegende Erfindung beschreibt ein innovatives Verfahren wie in einem System-of- Systems unter Echtzeitbedingungen die funktionale Verarbeitung und die Fehlererkennung parallelisiert werden können, und wie verhindert werden kann, dass sich ein erkannter Fehler in die Umgebung fortpflanzt. Dies wird durch die Einführung eines mit einem vorläufigen Ergebnis assoziierten Kommitmentzeitpunkts ermöglicht. Die parallel arbeitende unabhängige Fehlererkennung muss vor dem Kommitmentzeitpunkt den Fehler an das Subsystem, das die Ausgabe an die Umgebung vornimmt, melden, so dass ein erkannter Fehler zu keinen falschen Ausgaben an die Umgebung führt.

Zitierte Literatur:

[1] US 5,793,753

[2] US 7,839,868

[3] US 8,004,993 [4] US Pat Application 20110307741

[5] US Pat Application 20050094674

[6] Kopetz, H. Real-Time Systems, Design Principles for Distributed Embedded

Applications. Springer Verlag. 2011.

[7] SAE Standard von TT Ethernet. URL: http://standards.sae.org/as6802

Claims

PATENTANSPRÜCHE

1. Verfahren zur Fehlererkennung in einem Fault-Containments-Units (FCUs) umfassenden verteilten Echtzeitcomputersystem, insbesondere einem fehlertoleranten System-of- Systems (SoS), welches über eine globale Zeitbasis verfügt, dadurch gekennzeichnet, dass die Fault-Containments-Units mittels Nachrichten über mindestens eine Nachrichtenverteileinheit kommunizieren, wobei mit einer von einer Fault-Containments-Unit gebildeten Nachricht ein Kommitmentzeitpunkt assoziiert ist, und wobei eine Nachrichtenverteileinheit, die eine Nachricht empfängt, die Nachricht an eine oder mehrere parallel arbeitende Fault-Containments-Units weiterleitet, und wobei eine Verarbeitungs-Fault-Containments-Unit (VFCU) keines ihrer Resultate, die von einer oder mehreren der empfangenen Nachrichten beeinflusst sind, vor dem mit den empfangenen Nachrichten assoziierten Kommitmentzeitpunkten an die Umgebung der Verarbeitungs-Fault-Containments-Unit sendet oder zur Veränderung des inneren Zustands der Verarbeitungs-Fault-Containments-Unit verwendet.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der mit einer Nachricht assoziierte Kommitmentzeitpunkt in der Nachricht enthalten ist.

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der mit einer Nachricht assoziierte Kommitmentzeitpunkt aus dem a priori festgelegten zeitgesteuerten Zeitplan der Fault-Containments-Units abgeleitet wird.

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass zwischen Verarbeitungs-Fault-Containments-Units (VFCUs) und Monitor-Fault-Containments-Units (MFCUs) unterschieden wird, wobei die Nachrichtenverteileinheit eine oder mehrere Nachrichten einer Sensor-Fault-Containments-Unit (SFCU) an eine oder mehrere designierte Verarbeitungs-Fault-Containments-Units und zusätzlich an eine oder mehrere Monitor- Fault-Containments-Units weiterleitet, und wobei eine Monitor-Fault-Containments-Unit den Inhalt der empfangenen Nachrichten überprüft und, falls in einer Nachricht ein Fehler festgestellt wird, vor dem mit der Nachricht assoziierten Kommitmentzeitpunkt eine Fehler- nachricht an die eine oder die mehreren designierten Verarbeitungs-Fault-Containments- Units sendet, so dass die eine oder die mehreren designierten Verarbeitungs-Fault- Containments-Units alle von der fehlerhaften Nachricht beeinflussten Resultate vor dem Kommitmentzeitpunkt verwerfen können.

5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass in einem zyklisch arbeitenden Echtzeitcomputersystem, insbesondere einem zyklisch arbeitenden System-of-Systems eine designierte Verarbeitungs-Fault-Containments-Unit ein in einem Zyklus aufgrund eines Fehlers verworfenes Resultat durch das Resultat des vorangegangen Zyklus ersetzt.

6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass in einem Zyklus eine Vielzahl von Fault-Containments-Units, die Sensordaten übernehmen können, Nachrichten mit dem gleichen Kommitmentzeitpunkt bilden, wobei mehrere oder alle dieser Nachrichten über eine oder mehrere Nachrichtenverteileinheiten an eine oder mehrere Verarbeitungs-Fault-Containments-Units und an eine oder mehrere Monitor-Fault- Containments-Units gesendet werden, und wobei die Verarbeitungs-Fault-Containments- Units keine Resultate, die von einer dieser Nachrichten beeinflusst sind, vor dem mit den Nachrichten assoziierten Kommitmentzeitpunkt an die Umgebung einer Verarbeitungs- Fault-Containments-Unit sendet oder zur Veränderung des inneren Zustands einer Verarbei- tungs-Fault-Containments-Unit verwendet.

7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass die Verteilereinheit empfangene Nachrichten sofort an die Monitor-Fault-Containments-Units weiterleitet, jedoch die Weiterleitung der Nachrichten an die Verarbeitungs-Fault- Containments-Units bis zum Kommitmentzeitpunkt verzögert, wobei im Falle eines erkannten Fehlers die Monitor-Fault-Containments-Units vor dem Kommitmentzeitpunkt eine Fehlernachricht an die Verteilereinheit senden, so dass die Verteilereinheit die fehlerhaften Nachrichten verwerfen kann und nicht an die Verarbeitungs-Fault-Containments-Units weiterleitet.

8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass die eine Fehlernachricht empfangende Verarbeitungs-Fault-Containments-Unit nach einer Analyse der in der Fehlernachricht enthaltenen Beschreibung des Fehlers entscheidet, ob in diesem Zyklus die Resultate an die Umgebung der Verarbeitungs-Fault-Containments-Unit gesendet oder zur permanenten Veränderung des inneren Zustands der Verarbeitungs-Fault- Containments-Unit verwendet werden.

9. Nachrichtenverteileinheit zur Vermittlung von Nachrichten in einem verteilten Echtzeitcomputersystem, insbesondere einem fehlertoleranten System-of-Systems (SoS), welches Fault-Containments-Units (FCUs) umfasst und welches über eine globale Zeitbasis verfügt, wobei die Fault-Containments-Units mittels Nachrichten über die zumindest eine Nachrichtenverteileinheit kommunizieren, wobei mit einer von einer Fault-Containments-Unit gebildeten Nachricht ein Kommitmentzeitpunkt assoziiert ist, und wobei eine Nachrichtenverteileinheit, die eine Nachricht empfängt, die Nachricht an eine oder mehrere parallel arbeitende Fault-Containments-Units weiterleitet, dadurch gekennzeichnet, dass die Nachrichtenverteileinheit dazu eingerichtet ist, eine eintreffende Nachricht zu kopieren und eine Kopie der Nachricht sofort an eine Monitor-Fault-Containments-Unit zu senden und eine zweite Kopie der Nachricht bis zu einem mit der Nachricht assoziierten Kommitmentzeitpunkt zu verzögern, bevor die zweite Kopie der Nachricht von der Nachrichtenverteileinheit an die folgende Verarbeitungs-Fault-Containments-Unit gesendet wird.

10. Nachrichtenverteileinheit nach Anspruch 9, dadurch gekennzeichnet, dass der mit einer Nachricht assoziierte Kommitmentzeitpunkt in der Nachricht enthalten ist.

11. Nachrichtenverteileinheit nach Anspruch 9, dadurch gekennzeichnet, dass der mit einer Nachricht assoziierte Kommitmentzeitpunkt aus dem a priori festgelegten zeitgesteuerten Zeitplan der Fault-Containments-Units abgeleitet wird.

12. Verteiltes Echtzeitcomputersystem, insbesondere fehlertolerantes System-of-Systems (SoS), welches Fault-Containments-Units (FCUs) umfasst und welches über eine globale Zeitbasis verfügt, mit zumindest einer Nachrichtenverteileinheit nach einem der Ansprüche 9 bis 11 zur Vermittlung von Nachrichten, wobei die Fault-Containments-Units mittels Nachrichten über die zumindest eine Nachrichtenverteileinheit kommunizieren, wobei mit einer von einer Fault-Containments-Unit gebildeten Nachricht ein Kommitmentzeitpunkt assoziiert ist, und wobei eine Nachrichtenverteileinheit, die eine Nachricht empfängt, die Nachricht an eine oder mehrere parallel arbeitende Fault-Containments-Units weiterleitet, dadurch gekennzeichnet, dass die Nachrichtenverteileinheit dazu eingerichtet ist, eine eintreffende Nachricht zu kopieren und eine Kopie der Nachricht sofort an eine Monitor-Fault-Containments-Unit zu senden und eine zweite Kopie der Nachricht bis zu einem mit der Nachricht assoziierten Kommitmentzeitpunkt zu verzögern, bevor die zweite Kopie der Nachricht von der Nachrichtenverteileinheit an die folgende Verarbeitungs-Fault-Containments-Unit gesendet wird.

13. Echtzeitcomputersystem nach Anspruch 12, dadurch gekennzeichnet, dass zwischen Verarbeitungs-Fault-Containments-Units (VFCUs) und Monitor-Fault-Containments-Units (MFCUs) unterschieden wird, wobei die Nachrichtenverteileinheit eine oder mehrere Nachrichten einer Sensor-Fault-Containments-Unit (SFCU) an ein oder mehrere designierte Verarbeitungs-Fault-Containments-Units und zusätzlich an eine oder mehrere Monitor- Fault-Containments-Units weiterleitet, und wobei eine Monitor-Fault-Containments-Unit den Inhalt der empfangenen Nachrichten überprüft und, falls in einer Nachricht ein Fehler festgestellt wird, vor dem mit der Nachricht assoziierten Kommitmentzeitpunkt eine Fehlernachricht an die eine oder die mehreren designierten Verarbeitungs-Fault-Containments- Units sendet, so dass die eine oder die mehreren designierten Verarbeitungs-Fault- Containments-Units alle von der fehlerhaften Nachricht beeinflussten Resultate vor dem Kommitmentzeitpunkt verwerfen können.

14. Echtzeitcomputer System nach Anspruch 12 oder 13, dadurch gekennzeichnet, dass in einem zyklisch arbeitenden Echtzeitcomputer System, insbesondere einem zyklisch arbeitenden System-of-Systems eine designierte Verarbeitungs-Fault-Containments-Unit ein in einem Zyklus aufgrund eines Fehlers verworfenes Resultat durch das Resultat des vorangegangen Zyklus ersetzt.

15. Echtzeitcomputer System nach einem der Ansprüche 12 bis 14, dadurch gekennzeichnet, dass in einem Zyklus eine Vielzahl von Fault-Containments-Units, die Sensor daten übernehmen können, Nachrichten mit dem gleichen Kommitmentzeitpunkt bilden, wobei mehrere oder alle dieser Nachrichten über eine oder mehrere Nachrichtenverteileinheiten an eine oder mehrere Verarbeitungs-Fault-Containments-Units und an eine oder mehrere Monitor-Fault-Containments-Units gesendet werden, und wobei die Verarbeitungs-Fault- Containments-Units keine Resultate, die von einer dieser Nachrichten beeinflusst sind, vor dem mit den Nachrichten assoziierten Kommitmentzeitpunkt an die Umgebung einer Verarbeitungs-Fault-Containments-Unit sendet oder zur Veränderung des inneren Zustands einer Verarbeitungs-Fault-Containments-Unit verwendet.

16. Echtzeitcomputer System nach einem der Ansprüche 12 bis 15, dadurch gekennzeichnet, dass die Nachrichtenverteileinheit empfangene Nachrichten sofort an die Monitor-Fault- Containments-Units weiterleitet, jedoch die Weiterleitung der Nachrichten an die Verarbei- tungs-Fault-Containments-Units bis zum Kommitmentzeitpunkt verzögert, wobei im Falle eines erkannten Fehlers die Monitor-Fault-Containments-Units vor dem Kommitmentzeitpunkt eine Fehlernachricht an die Verteilereinheit senden, so dass die Verteilereinheit die fehlerhaften Nachrichten verwerfen kann und nicht an die Verarbeitungs-Fault- Containments-Units weiterleitet.

17. Echtzeitcomputer System nach einem der Ansprüche 12 bis 16, dadurch gekennzeichnet, dass die eine Fehlernachricht empfangende Verarbeitungs-Fault-Containments-Unit nach einer Analyse der in der Fehlernachricht enthaltenen Beschreibung des Fehlers entscheidet, ob in diesem Zyklus die Resultate an die Umgebung der Verarbeitungs-Fault- Containments-Unit gesendet oder zur permanenten Veränderung des inneren Zustands der Verarbeitungs-Fault-Containments-Unit verwendet werden.

18. Echtzeitcomputersystem nach einem der Ansprüche 12 bis 17 , dadurch gekennzeichnet, dass die Monitor-Fault-Containments-Unit den Inhalt der Nachricht sofort überprüft und im Fall einer Fehlererkennung vor dem Kommitmentzeitpunkt eine Fehlermeldung an die Nachrichtenverteileinheit sendet und die Nachrichtenverteileinheit eine fehlerhafte Nachricht verwirft bevor die fehlerhafte Nachricht von der Vermittlungseinheit an die designierte Verarbeitungs-Fault-Containments-Unit gesendet wird.