ERZlich Willkommen liebe Freunde der Schutz-, Leit- und Elektrotechnik. In einem aktuellen Fachartikel informiert Siemens Siprotec über Maßnahmen gegen unerwünschte Bit Flips innerhalb ihrer Geräte. Da in diesem Beitrag nicht nur die Maßnahmen an sich, sondern auch das physikalisch ursächliche Phänomen beschrieben wird, möchten wir diesen Beitrag unverändert teilen. Eine interessante Story die man so kaum auf dem Schirm hat.
Viel Spaß beim Lesen,
Euer SCHUTZTECHNIK-TEAM
Single Event Upset
EIN PHYSIKALISCHES PHÄNOMEN UND SIPROTEC 5 MAßNAHMEN
Motivation
Aus der Luft- und Raumfahrt ist bekannt, dass die kosmische Teilchenstrahlung hochenergetischer Partikel wie ionisierten Wasserstoff zur temporären Störungen bis hin zur Zerstörung mikroelektronischer Elemente führen kann. Diese Strahlung wird beispielsweise durch eruptive Sonnenwinde verursacht.
Da die Erde durch ihr Magnetfeld weitestgehend vor dieser Strahlung abgeschirmt wird, sind Auswirkungen auf Meereshöhe seltener zu beobachten. Trotzdem gelingt es einigen Teilchen in die Erdatmosphäre einzudringen. Das Resultat der Kollision mit Sauerstoff- und Stickstoffatomen ist eine Kettenreaktion, die weitere Teilchen wie Neutronen und Alpha-Teilchen freisetzen.
Alle irdischen Materialien besitzen Spuren von natürlichen radioaktiven Elementen, welche Alpha Teilchen emittieren. Diese kommen auch in Plastikgehäusen und Metalllayern von Halbleiterbausteinen wie z.B. Mikroprozessoren und Speicher-Chips vor. Die Wirkung hochenergetischer Neutronen ist jedoch zehnmal höher als die von Alphateilchen.
Die zunehmende Miniaturisierung in der Halbleitertechnik geht einher mit immer größeren integrierten Speichern und niedrigeren Betriebsspannungen. Die Energie eindringender Elementarteilchen reicht nun aus, um beispielsweise Bitkipper (Bit Flips) in Speicherbausteinen zu induzieren. Das kann wiederum zu Fehlfunktionen im Betrieb numerischer Geräte führen. Entsprechende Schutzmaßnahmen sind deswegen notwendig.
Definitionen und Physik
SE – Single Event
Ein Single Event ist die Interaktion eines energetischen Partikels, wie z.B. eines Neutrons mit einem Halbleiter. Dabei gibt das auftreffende Teilchen Energie an das Material ab, was als LET (Linear Energy Transfer) bezeichnet wird. Das Auftreten ist zufällig und hängt maßgeblich von der Energie des Teilchens ab.
Die Auswirkungen eines Single Events sind beobachtbare und messbare Fehler. Man unterscheidet zwischen einem Hard Error und einem Soft Error. Bei einem Soft Error werden „nur“ Daten zerstört. Ein Hard Error hingegen, für welchen eine sehr hohe Strahlung nötig ist, zerstört den Halbleiter irreversibel. Der letztere Fall kann bei der Anwendung numerischer Schutzgeräte und deren Einsatzorten nahezu ausgeschlossen werden.
SEU – Single Event Upset
Ein Single Event Upset ist die, durch eine Single Event verursachte Änderung eines logischen Zustandes (Bit Flip) in einer beschreibbaren, elektronischen Speicherzelle (Soft Error).
Durch die unterschiedlichen Kollisionsarten kann eine Vielzahl von Zweitprodukten entstehen (siehe Bild 2), die am Ausgang der attackierten Transistoren einen Stromimpuls hervorrufen. Dies kann zu einer Änderung der Ladungsverteilung und somit zu einem „Umschalten“ eines p-n-Übergangs führen.
Typische, von SEUs betroffene Bauelemente sind DRAMs (Dynamic Random Access Memory), SRAMs (Static Random- Access Memory), FPGAs (Field-Programmable Gate Array) und Microcontroller mit großen integrierten Speichern, wie sie heutzutage in allen modernen elektronischen Geräten (z.B. Computern, TV-Geräten, Smartphones, Auto-Elektronik, Automatisierungs- und Schutztechnik) eingesetzt werden.
Auswirkung auf die Funktionsweise numerischer Geräte
Numerische Geräte mit hochintegrierten elektronischen Bauelementen sind potenziell immer mit einer gewissen Auftrittswahrscheinlichkeit von SEUs betroffen. Prinzipiell steigt die SEU-Error-Rate mit immer kleiner werdenden Chip- Strukturen. Halbleiterhersteller schaffen es jedoch, gleichzeitig die SEU-Error-Rate durch Verdichtung der Strukturen auf dem Silizium wirksam zu begrenzen. Mittlerweile zeichnet sich bei Strukturen von z.B. 14 nm eine Trendumkehr ab und die Bausteine werden wieder unempfindlicher. Halbleiterhersteller geben in den technischen Daten ihrer Speicher-Chips die Auftrittswahrscheinlichkeit von SEUs an.
Ein durch einen SEU verursachter Bit Flip kann – sofern ein betroffenes Gerät nicht in angemessener Weise darauf reagiert – bis zu einer Gerätefehlfunktion führen.
Können SEUs verhindert werden?
🌐 Nein, da alle Maßnahmen zur Vermeidung von Partikeleinschlägen mit extremem Aufwand verbunden und somit unwirtschaftlich wären.
Warum werden elektronische Bauelemente wie FPGAs eingesetzt?
🌐 FPGAs (Field-Programmable Gate Array) sind hochintegrierte Bausteine mit konfigurierbarer Logik. Damit lassen sich komplexe mathematische Funktionen realisieren, die die Performance von numerischen Geräten erhöhen. Bedingt durch die hohe funktionale Dichte sind FPGAs potenziell kritischer gegenüber SEUs als ordinäre Speicherbausteine.
🌐 Erst aber mit dem Einsatz von FPGAs ist die Entwicklung leistungsstarker, multifunktionaler Schutz- und Steuergeräte mit umfangreichen Kommunikationsoptionen ermöglicht worden.
🌐 Es lassen sich lokale Hardware-Funktions-Upgrades durchführen, ohne die Gesamt-Firmware eines Gerätes zu beeinflussen. Wartungs- und Upgrade-Zyklen verkürzen sich auf ein Minimum.
🌐 FPGAs sind eine fest etablierte Technologie. State-of-the-art Schutz- und Automatisierungsgeräte aller Hersteller setzen FPGAs ein.
Kann das Auftreten von SEUs reduziert werden?
🌐 Abschirmende Maßnahmen an den Geräten selbst sind nicht praktikabel. Jedoch kann durch den Einbauort (z.B. Gebäude mit Betondecken) das Auftreten von SEUs reduziert werden. Bei einer Materialstärke von einem Meter Beton wird bereits das Eindringen von Neutronen zu 70% verringert.
🌐 Durch den Einsatz von FPGAs mit kleinstmöglichem OnChip-Speicher kann die potenzielle Angriffsfläche minimiert werden.
Wie wahrscheinlich ist ein SEU?
🌐 Das Auftreten eines SEUs ist abhängig vom Einsatzort (z.B. der Position über Meereshöhe). In höheren atmosphärischen Schichten steigt die Wahrscheinlich für einen SEU durch hochenergetische Teilchen. Typische Einsatzorte von Schutz- und Automatisierungsgeräten liegen im Bereich von 0 bis 4.000 m (12.000 Fuß) über dem Meeresspiegel. Ein weiteres Kriterium ist die geographische Lage. Die schützende Wirkung des Erdmagnetfeldes nimmt an den Polen und an Stellen lokaler Feldlinienanomalien ab.
🌐 Halbleiterhersteller weisen die Auftrittswahrscheinlichkeit von SEUs in den technischen Daten ihrer Bauteile als Kennzahlen aus. Für die bei SIPROTEC 5 eingesetzten Bauteile wird eine typische MTBF (Mean Time Between Failure) von 50 – 250 Jahren für den Einsatz auf Meereshöhe angegeben.
Können SEU bedingte Fehlfunktionen verhindert werden?
🌐 Ja! Durch den Einsatz geeigneter Hardware- und Firmware-Maßnahmen kann ein stabiler Gerätebetrieb und maximale Verfügbarkeit erreicht werden.
SEU Handling in SIPROTEC 5 Geräten
“Goal for critical applications:
Limit the probability of system error propagation and/or provide detection-recovery mechanisms via failsafe strategies.”
NASA Goddard Radiation Effects and Analysis Group https://radhome.gsfc.nasa.gov
Schutz- und Automatisierungsgeräte gehören zu diesen kritischen Anwendungen. Die SIPROTEC 5 Gerätefamilie folgt dieser Zielstellung und ergreift gemäß dieser Zielstellung wurden in der SIPROTEC 5 Gerätefamilie Hardware- und Firmware-Maßnahmen (Fail-Save-Strategien) ergriffen, die eine maximale Verfügbarkeit und Stabilität der Funktion gewährleisten.
DRAMs
🌐 Verwendung ECC (Error Correcting Code) geschützter DRAMs, welche während des laufenden Betriebs ohne funktionale Unterbrechung einzelne Bit-Fehler korrigieren.
FPGAs Allgemein
🌐 Strikte Hardware-Design-Regel: Verwendung von FPGAs mit kleinstmöglichem OnChip-Speicher zur Reduzierung der potenziellen Angriffsfläche.
🌐 Die funktionell relevanten Routing-Ressourcen (FPGA-Programmierung) belegen nur ca. 10 % des betroffenen Speicherbereiches.
🌐 Implementierung einer aktiven SEU-Erkennung (Bit Flip Überwachung).
FPGAs auf IO-Boards
🌐 Autarke System-Wiederherstellung (System-Recovery): Es erfolgt eine Neuinitialisierung des FPGAs in wenigen Millisekunden ohne Geräte-Neustart. Die Mainboard-CPU gewährleistet dabei ein synchronisiertes Geräteverhalten auch im Fall einer einzelnen IO-Board-Neuinitialisierung.
🌐 Datensicherheit durch CRC Checksummenüberwachung: IO-Boards mit analogen Messeingängen, versehen jeden ermittelten Abtastwert mit einer CRC Checksumme. Korrupte Daten werden somit von der Mainboard-CPU erkannt und als ungültig markiert. Damit wird ein fehlerhaftes Ansprechen von Schutzfunktionen verhindert.
FPGAs auf dem Mainboard
🌐 Nur im Fall eines SEUs auf dem Mainboard ist ein schneller Geräte-Neustart (Warmstart) zur Wiederherstellung eines deterministischen Geräte-Status erforderlich. Im Betriebsmeldepuffer wird die Ursache des Wiederanlaufs gemeldet.
SIPROTEC 5 Graceful Restart Strategie
Die Graceful Restart Strategie sichert die schnellstmögliche Systemwiederherstellung bei gleichzeitiger Systemstabilität zur Erhaltung der maximalen funktionalen Verfügbarkeit.
🌐 Im Falle eines SEUs wird die Neuinitialisierung eines IO-Board FPGAs der Mainboard CPU gemeldet.
🌐 Diese hält die geräteinterne Kommunikation bis zum Abschluss der IO-Neuinitialisierung an. Analoge Daten(Ströme und Spannungen) werden während dieser Dauer nicht ermittelt. Binäre Eingangs- und Ausgangssignale behalten den Status vor der Initialisierung. Schutz- und Messfunktionen gehen während der gesamten Neuinitialisierung in einen sicheren Wartezustand (inaktiv oder blockiert).
🌐 Das Gerät bleibt aktiv, derLife-Kontakt bleibt angezogen.
🌐 Die externe Kommunikation (Protokolle) meldet das aktuelle Geräteverhalten.
🌐 Interne LOGs zeichnen den gesamten Neuinitialisierungsvorgang auf.
🌐 Das Gerät kehrt selbständig nach ca. 100 ms in den stabilen Betrieb zurück.
🌐 Nur ein SEU auf dem FPGA des Mainboards führt zu einem Geräteneuanlauf (Warmstart).
Fazit
SEUs sind zwar schon Jahrzehnte als Phänomen bekannt, gewinnen aber mit fortschreitender Integration elektronischer Bauelemente immer mehr an Bedeutung. Siemens minimiert SEUs durch strikte Hardware-Designregeln auf ein Minimum und realisiert maximale Verfügbarkeit und vollständige funktionale Stabilität durch geeignete Überwachungsmaßnahmen und die verwendete Graceful Restart Strategie.
Herausgegeben von Siemens, Smart Infrastructure, Digital Grid, Humboldtstraße 59, 91459 Nürnberg, Deutschland