Chagall

Outage: Geht es heutzutage überhaupt noch ohne Cloud (und Microsoft)? #9vor9

Am 25. Januar habe ich morgens meinen MacBook aufgeklappt und quasi rien ne va plus, nichts ging mehr. Als fast nichts: Meine Microsoft-Anwendungen liefen nicht. Ich kam weder in Outlook noch konnte ich das IT-Support-Portal – eine SharePoint-Seite- öffnen, um dort nachzuschauen, ob es eine Störung im Netzwerk gibt. Und offensichtlich ging es vielen wie mir. Zahlreiche Anwenderinnen und Anwender in Unternehmen und Behörden (aber auch privat) waren von einer Störung der Microsoft-Dienste betroffen. Ein Fehler in der Routerkonfiguration, wie man jetzt festgestellt hat. Den Themenkomplex haben jetzt Lars Basche und ich bei diskutiert.

Ein solches Outage, ein Ausfall der Infrastruktur und Kommunikationskanäle, war natürlich sofort Thema in den klassischen und sozialen Medien. Beispielsweise hat die FAZ das Thema Cloud-Dienste in Deutschland umfassend unter der Überschrift „Microsofts Cloud globale Störung: Ist die Cloud zu unzuverlässig?“ (leider hinter der Paywall) aufgegriffen und stellt die generelle Sinnfrage nach einem zentralen Cloud-Service, statt auf dezentrale Systeme zu setzen, die miteinander kommunizieren*.

Kein Cloud- bzw. SaaS-Anbieter ist vor Ausfällen gefeit

Der Vorfall hat gezeigt, dass ein vergleichsweise kleines Rädchen in der IT-Infrastruktur einen solchen fatalen Fehler mit allen Folgen verursachen kann. Da nutzen auch alle redundanten Systeme und Server im Hintergrund wenig. Es kann passieren. Und es kann bei weitem nicht nur Microsoft passieren. Jedes IT-Unternehmen, das Services über das Netz und über die Cloud anbietet, kann von solchen Ausfällen betroffen sein. Es ist ja bereits bei prominenten anderen Anbietern – zum Beispiel AWS, aber auch bei viele anderen – passiert und es kann jederzeit beispielsweise auch bei meinem privaten E-Mail-Dienst passieren, den ich über Mailbox.org beziehe.

Henning Uhle bringt es in seinem Beitrag auf den Punkt:

So mancher Kommentar, der die Zuverlässigkeit „der Cloud generell in Frage stellt, ist einfach deutlich „over the top“ und vielleicht auch zu sehr interessengetrieben.

Natürlich sind – wie es auch Henning schreibt – die Anbieter nicht davon entbunden, mit größter Sorgfalt vorzugehen, eben Systeme möglichst ausfallsicher und redundant vor zu halten. Und sicherlich zeigt es auch, welche Auswirkungen ein solches Problem hat, wenn es bei Microsoft auftritt, dass mit Microsoft365, Outlook und Teams in Unternehmen den Markt beherrscht. Wenn bei Microsoft so etwas passiert, hat es eklatante Auswirkungen bei und auf viele Kunden. Immerhin hat Microsoft wohl schnell und korrekt reagiert, um die Systeme wieder online zu bringen.

Die Reaktion des Unternehmens war jedoch vorbildlich. Bereits sieben Minuten nach dem Ausfall bemerkte Microsoft die DNS- und WAN-Fehler und führte ein Review der zuvor getätigten Changes durch. Circa eine Stunde nach Beginn begann ein automatisierter Recovery-Prozess im Netzwerk.

Analyse: Microsoft liefert erste Details zum Ausfall von Teams, Office und Co. | heise online

Analyse: Microsoft liefert erste Details zum Ausfall von Teams, Office und Co. | heise online

Im Video- und Podcast haben wir daran erinnert, dass auch On Premises-Lösungen nicht störungsfrei sind und betrieben werden. Die lokalen auf den einzelnen Server kommen einfach nicht an die Öffentlichkeit. Dabei sind beispielsweise Zehntausende von Exchange Servern, die in den Rechenzentren und Serverräumen stehen, noch immer nicht gepatcht, auf die neueste, sicher Version gebracht worden und sind weiter für sogenannte ProxyNotShell-Attacken anfällig.

Jeder muss sich vor Augen führen, dass auch Lösungen, die selbst betrieben werden, ebenfalls anfällig sind. In solchen Konstellationen haben die IT-Abteilungen die Verantwortung, dass die Server und alle Software auf dem neuesten Stand sicher konfiguriert sind. Angesichts des Mangels an IT-Fachkräften und der Komplexität von Systemen muss sich jedes Unternehmen demzufolge die Frage stellen, welche Services man intern, welche extern leisten lassen will, in der Cloud durch einen Anbieter wie Microsoft oder einen Outsourcer, der die ganze oder Teile der Infrastruktur managt.

Sicherlich müssen sich Unternehmen und Verwaltungen die Frage stellen, ob man sich bei Cloud-Diensten nicht zu sehr von nur einem Anbieter abhängig machen sollte, sondern stattdessen eine Multicloud mit mehreren Providern nutzen oder gar eine hybride Cloud mit einigen Diensten im eigenen Rechenzentrum bevorzugen sollte. Beim konkreten Ausfall der Microsoft-Dienste hätte das allerdings nichts geholfen, denn hier vertrauen Unternehmen – sofern die Exchange-Server nicht im eigenen Rechenzentrum laufen- meistens auf die Microsoft Cloud. Ob beispielsweise die angedachte Delos-Cloud, die SAP und die Bertelsmann-Tochtergesellschaft Arvato gerade mit Hilfe von Microsoft als eine souveräne Plattform für die Digitalisierung des Öffentlichen Diensts aufbauen, sicherer und zuverlässiger sein wird, muss sich erst nach Inbetriebnahme zeigen.

Natürlich gibt es gerade auch im Bereich Kollaboration und Kommunikation die Verfechter von Lösungen, die eben nicht auf Microsoft aufbauen, sondern ihre Lösungen meist aus den Lösungsmodulen verschiedener Anbieter zusammen bauen. Diese „Best of Breed“-Lösungen sind oft funktional sogar besser als die einzelnen Microsoft-Produkte. Jedoch spielt Microsoft sehr geschickt das Konzept „alles aus einer Hand“ aus und integriert oft die Produkte und das Betriebssystem so miteinander, dass es der Wettbewerb extrem schwierig hat und auch die Aufwände für „Best of Breed“ scheut.

Infrastruktur-Ausfall als Teil der aktuellen Realität

Doch weg von dieser Frage zum eigentlichen Thema, dem Einsatz von Cloud-basierten Systemen, und zur bereits erwähnten Aussage von Henning Uhle:

Aber Angriffe auf die Netze und ein damit herbeigeführter Infrastruktur-Ausfall wird wohl Teil der aktuellen Realität bleiben. Eine vollständige Sicherheit gibt es nicht. Wir können nur versuchen, das Risiko weitgehend zu reduzieren.

Dazu ist nichts hinzuzufügen.

  • Die Diskussion erinnert bei allen Unterschieden ein wenig an das, was gerade bei Twitter contra Mastodon diskutiert wird. Begebe ich mich in die Hand eines Dienstes? Wenn der ausfällt – oder im Falle von Twitter der Besitzer die Firmenpolitik und die Regeln ändert -, hat das direkt Einfluss auf alle Anwenderinnen und Anwender, die am System angeschlossen sind. Oder aber setze ich stattdessen auf eine dezentrale Architektur wie der des Fediverse, wo viele verschiedene Server und Instanzen über ein standardisiertes Protokoll miteinander kommunizieren. Wenn dort ein Server ausfällt, sind die anderen noch aktiv. Das nutzt nur den Usern dieses ausgefallenen Server nichts, denn auch dann können auch sie auch nicht kommunizieren. Aber die anderen Anwenderinnen und Anwender können es.

Meine Titelgrafik

Diesmal bin ich von Dall E-2 enttäuscht. Mit Chagall hat es gar nichts zu tun, aber die lachenden Leutchen gefallen mir trotzdem. Die Anweisung lautete: Illustriere mir im Stil von Chagall, wie die Microsoft-Cloud ausgefallen ist, Leute in den Büros nicht mehr arbeiten können und happy, glücklich sind, weil sie Outlook und Teams nicht nutzen können. Ich habe sie dann nochmals neu erstellt, ohne glückliche Nutzer, die nicht arbeiten müssen.

Comments

Kommentar verfassen

Diese Seite verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden..

Regelmäßig informiert bleiben?
StefanPfeiffer.Blog

Jetzt abonnieren, um informiert zu bleiben und alle Beiträge im Zugriff zu haben.

Fortfahren