
Es war wieder ein interessanter Erfahrungsaustausch und wir haben was gelernt, wie Lars kurz nach unserer Sendung #9vor9 mit meinem Kollegen Dominik Bredel zum Thema CrowdStrike-Vorfall bemerkte. Am 19. Juli 2024 ereignete sich einer der größten IT-Ausfälle weltweit, verursacht durch ein fehlerhaftes Signatur-Update von Crowdstrike. Wie besprechen Hintergründe und Auswirkungen dieses Vorfalls.
Dominik erklärt, dass es sich nicht um einen Cyberangriff handelte, sondern um einen Fehler im automatisch eingespielten Signaturen-Update. Aufgrund der Zugriffsrechte von CrowdStrike auf den Windows-Kernel führte dieser Logikfehler zu weitreichenden Systemausfällen. Nutzer dieser Software können bei solchen Signatur-Updates nichts konfigurieren oder erst mal zurückhalten, sondern das Update automatisch über die Cloud eingespielt, um eben schnellstmöglich die die Bedrohung abzuwenden. Der Fehler hätte vorher von CrowdStrike durch intensiveres Testen des Updates gefunden werden müssen.
Etwa 8,5 Millionen Windows-Rechner waren betroffen, deutlich mehr als bei früheren Cyberattacken wie WannaCry oder Petya. Die Auswirkungen waren gravierend: Flugausfälle, Probleme bei der Bahn und in Krankenhäusern zeigten die Abhängigkeit moderner Infrastrukturen von funktionierenden IT-Systemen. Es wird von Milliardenschäden ausgegangen.
Dominik konnte auch aus der Praxis berichten. Kyndryl, als professioneller IT-Dienstleister, war mit 240 Kunden und 43.000 Servern betroffen. Nach 33 Stunden konnten 85% der betroffenen Server wiederhergestellt werden. Insgesamt wurden etwa 5.000 Arbeitsstunden für die Wiederherstellung aufgewendet. Kyndryl Bridge, das Monitoring-System, das man einsetzt, habe dabei geholfen, schnell einen Überblick zu bekommen, welche Systeme betroffen waren und wo man agieren musste.
Die betroffenen Systeme mussten dann manuell wieder restauriert werden: „Hier hat so ein bisschen die Security die Security ausgetrickst. Bei sehr, sehr vielen Enterprise Kunden ist die Konfiguration natürlich so, dass der Endanwender keine Administration Rechte im BIOS und Kernel hat.“ Die Enduser waren auf den IT-Support angewiesen, bei dem gleichzeitig Tausende von Tickets einliefen und bei dem oft auch keine Priorisierung nach der Maßgabe „welche Rechner und Nutzergruppen sind missionskritisch, müssen zuerst wieder in Gang gebracht werden“ stattgefunden habe.
Keine Schnappatmung, wenn Security drauf steht
Der Vorfall unterstreicht die Bedeutung von IT-Resilienz und klassischen Sicherheitsmethoden. Dominik warnt davor, blindlings alles umzusetzen. Er empfiehlt, die gesamte IT-Prozesskette resilient zu gestalten und sorgfältige Testverfahren für Updates durchzuführen: „Das erste ist, dass man nach wie vor auch an Change Management und Service-Management Best-Practices festhalten sollte, also beispielsweise unterschiedlichen Stages und Umgebungen hat, in denen Updates getestet werden. Das ist extrem empfehlenswert und nicht in diese Schnappatmung zu verfallen, wenn irgendwo Security drauf steht, dann kopflos zu agieren, sondern sich immer an diese Best Practices zu halten.“
Dominik machte im Gespräch noch auf ein weiteres Problem aufmerksam, das kaum beleuchtet wurde: Kommunikation mit den betroffenen Mitarbeitern. Wie erreicht und informiert man die User, deren System ja stehen beziehungsweise nur den „Blue Screen of Death“ zeigen. Hier muss man entsprechende Notfallpläne und Prozesse hinterlegt haben, mit denen man mit den Usern beispielsweise über deren Mobilgeräte aktiv kommuniziert.
Redmond – Ihr habt ein Problem
In Richtung Microsoft fügt Dominik hinzu: „Hier ein Appell in Richtung Microsoft, nochmals über das Design und den Aufbau Ihrer Betriebssysteme nachzudenken. Sind diese Kernel Zugriffe für solche Security Systeme in Gänze überhaupt notwendig und wenn ja, wie kann man vielleicht anders kapseln, so dass dadurch keine Auswirkungen entstehen.“ Microsoft wiederum weist der EU eine Mitschuld zu, da mit der EU der Zugriff von Drittanbietern auf den Kernel 2009 in einer Vereinbarung vereinbart worden sei. Dass aber Microsoft in den vergangenen Monaten massive Sicherheitsprobleme hat, ist unbestreitbar. Das Image hat gelitten. Gerade jetzt kam es wieder zu Störungen in der Microsoft-Cloud durch einen DDoS-Angriff.
Der Vorfall zeigt, dass selbst eine vergleichsweise geringe Anzahl betroffener Systeme massive Auswirkungen haben kann, wenn kritische Prozesse gestört werden. Es waren nicht die Hackerhorden von Putin oder Xi. „Es war auch kein AI-basierter Quellcode, der irgendwo vom Space Shuttle abgesetzt wurde, sondern ein einfacher Update-Fehler,“ so Dominik.
Der Vorfall verdeutlicht die Notwendigkeit, IT-Sicherheit ganzheitlich zu betrachten und nicht nur auf einzelne Komponenten zu fokussieren: „Ich würde behaupten, viele Unternehmen sind sicherlich beim Thema Resilienz bei 80 bis 90 %, aber leider machen dann halt die restlichen 20 die Kosten nochmal den Aufwand der vorherigen 80, aber die machen den Unterschied und darin muss der Aufwand investiert werden, dieses System wirklich extrem resilient zu machen.“
Nachträglich habe ich noch dieses Bild zu unserem Podcast von ideogram.ai erstellen lassen: A striking photo of an IT administrator, his face contorted in a mix of shock and panic, as he gasps and hyperventilates. A security incident
message flashes across his computer screen in bright red letters, creating a sense of urgency. The background shows a cluttered office space with multiple monitors, keyboards, and cables, reflecting the overwhelming nature of his job.



Kommentar verfassen