Ach ja, Microsoft Azure war mal wieder in den Nachrichten. Es hieß immer, dass die Cloud-Plattform nicht ausfallen kann. Aber irgendwie passierte doch etwas. Das Fatale daran war, dass man nicht unbedingt immer gleich Azure damit in Verbindung bringen konnte. Mal kurz eine Meinung dazu.
Microsoft Azure und der Blitzschlag
Unzählige Nutzer staunten nicht schlecht, als sie diverse Webdienste nutzen wollten. Im Süden der USA tobte ein gewaltiges Unwetter, und plötzlich funktionierte in weiten Teilen Nordamerikas und scheinbar auch in Europa die Anmeldung über Azure Active Directory nicht mehr. Betroffen war eine Region von Microsoft Azure, nämlich „South Central US“.
Ich hatte ja mal gelernt, dass eine Azure-Region aus mehreren untereinander vernetzten Rechenzentren besteht. Wenn jetzt über einem Rechenzentrum ein Unwetter tobt und dieses möglicherweise ausfällt, sollten doch die anderen übernehmen können. Denn die einzelnen Rechenzentren sollten auch lokal verschieden sein. Das heißt, dass sich die einzelnen Rechenzentren einer Region nicht im gleichen Gebäude befinden.
Umso mehr irritiert es mich, wenn hier von einem Unwetter in der Nähe des Rechenzentrums „South Central US“ die Rede ist. Aber sei’s drum, es ist vielleicht eine reine Definitionssache. Momentan läuft wieder alles, wie man auf der Status-Seite von Azure ablesen kann. Aber am 04.09.2018 kam es eben zu diesem schweren Unwetter, was eine automatische Abschaltprozedur ausgelöst hatte.
Es kam zu Schwankungen in der Stromversorgung und daraus resultierend Probleme mit der Kühlung. Vorsorglich wurde „South Central US“ heruntergefahren. Dadurch waren unter anderem Office 365, Visual Studio Teams und eine ganze Reihe von anderen Webanwendungen nicht verfügbar, weil sie alle auf Azure Active Directory aufbauen. Auch wenn der Corporate Vice President Alex Simmons etwas anderes behauptete, die Auswirkungen sollen bis nach Europa spürbar gewesen sein.
Was lehrt uns das?
Microsoft Azure ist eigentlich für alle möglichen Eventualitäten ausgelegt. Es gibt auch mindestens ein unterseeisches Rechenzentrum vor der afrikanischen Küste. Aber eben nur „eigentlich“. Microsoft hat viel Wert auf Ausfallsicherheit gelegt und mit Notstrom-Aggregaten, Batteriepuffern und allem möglichen gearbeitet. Dennoch ist es eben „nur“ anfassbare Technik. Und diese kann eben ausfallen.
Und dann haben wir den Standort von „South Central US“. Die Region „wohnt“ in Texas in der Nähe der Großstadt San Antonio. Und am 04. September tobte dort in der Tat ein gewaltiges Unwetter. Die Frage ist, ob Microsoft darauf hätte eingestellt sein müssen. Denn die Golfküste ist nun einmal auch Hurrikan-Gebiet. Wie stark muss das Unwetter da gewesen sein, dass es zu diesem massiven Ausfall kam?
Und wir fragen uns, ob zu dem Zeitpunkt die Synchronisation zwischen den Rechenzentren der Region und zwischen „South Central US“ und den Partner-Regionen ebenfalls ausgefallen war. Ich denke, hier muss Microsoft genau analysieren, wieso der Ausfall nicht direkt aufgefangen werden konnte. Denn umsonst verkündet Microsoft eben nicht:
Azure verfügt über mehr globale Regionen als jeder andere Cloudanbieter – und bietet damit genau die Reichweite, um Ihre Anwendungen und Benutzer weltweit näher zusammenzubringen. Azure stellt die Datenresidenz sicher und bietet den Kunden umfassende Optionen hinsichtlich Compliance und Ausfallsicherheit.
Treffer, versenkt!
Wenn wir das jetzt mal weiterspinnen, dann kann hier Gevatter Zufall Schuld sein. Es bietet aber auch sicherlich für potentielle Angreifer die Möglichkeit, gegen Azure Active Directory, das unter anderem von Office 365 genutzt wird, Angriffe zu fahren, indem gezielt Rechenzentren außer Betrieb genommen werden. Ein Überspannungsangriff, sozusagen. Und irgendwer wird dann schon sagen: „Treffer, versenkt!“
Der Treffer fand im Bexar County statt, nahe San Antonio. Der Ausfall von „South Central US“ dauerte einige Stunden. Wer des Englischen mächtig ist und daran interessiert ist, kann einen etliche Male aktualisierten Artikel zum Ausfall lesen. Die erneute Bereitstellung der Dienste wird wohl bis zum Erreichen der 100% noch etwas dauern. Und ich bekomme es nach wie vor nicht auf die Reihe, dass ein so gut abgesichertes Cloud-Monstrum so einen Ausfall haben kann.