SIPGATE Ausfall am 10.03.2021

Man braucht gar nicht lange um den heißen Brei herumreden. Der vergangene Montag war kein guter Tag für sipgate. Die Störung im Mobilfunknetz, die uns – aber vor allen Dingen natürlich euch als Kund:innen – getroffen hat, war massiv. Etwa neun Stunden lang konnten sich Teile unserer Mobilfunk-Kund:innen nicht ins sipgate Netz einbuchen. Dass es überhaupt so weit gekommen ist, ärgert uns alle und entspricht natürlich überhaupt nicht unserer Vorstellung von Service. Wir bitten euch aufrichtig um Entschuldigung. Aber, und da sind wir beim zentralen Punkt dieses Beitrags: Wir haben viel aus diesem Ausfall gelernt. Aus etwas Schlechtem ist für uns und euch etwas Gutes entstanden. Wir haben in einer angespannten Situation die Flucht nach vorne angetreten und dafür gesorgt, dass eine solche Störung in Zukunft nicht mehr vorkommen kann.
Wir nehmen solche Ausfälle immer ernst und fragen uns in der Nachbearbeitung: Welche Schlüsse ziehen wir aus der Störung? Wie können wir Abläufe und Prozesse verbessern? Und was tun wir, dass wir einen solchen Ausfall in Zukunft vermeiden? Dazu gehört für uns auch, dass wir offen darlegen, was passiert ist und was wir tun, damit eben das nicht mehr passiert.

Was ist passiert?

Von dem Moment an, als klar war, dass es eine Störung gibt, haben die sipgate Rädchen ineinander gegriffen. Dass etwas grundsätzlich nicht gut läuft, war uns spätestens – nach kleineren Ausfällen am Sonntag – am Montagmorgen ab etwa halb neun klar. Da zeigten zuerst unsere Systeme, dass die Anbindung zu unserem Mobilfunknetz-Partner Telefonica nicht rund läuft und parallel dazu meldeten sich auch schon die ersten Kund:innen mit Mobilfunkausfällen bei uns. Wie immer in solchen Fällen gab es umgehend ein Status-Update auf status.sipgate.de. Unsere Kundenbetreuer:innen wurden alle auf einen Wissensstand gebracht, der Ansagetext unserer Kundenhotline aktualisiert, der Chatbot mit den neuesten Informationen gefüttert. Dazu haben wir eine Statusmeldung über unseren Status-Account gepostet, und zwar hier: https://twitter.com/sipgateDEstatus

Nach kurzer Problemanalyse stand fest: Der Grund für den Ausfall lag darin, dass die ISDN-Bandbreite zu Telefonica am Limit war. Gegen 10 Uhr fing unsere Experten-Löschtruppe an, wie bei solchen Ausfällen üblich, unsere Kund:innen Stück für Stück zurück in unser Mobilfunknetz zu buchen. In der Hoffnung, dass die Leitungen halten. Das ging auch bis 11 Uhr gut. Da hatten bereits 80 Prozent unserer Kund:innen das Netz wieder zur Verfügung und waren online.

Die Graphen zum OperationCode und zum ErrorCode während des Zeitraums der Störung am Montag

Leitungen der fragilen Art

Leider wiederholte sich das Problem mit der ISDN-Bandbreite. Und so war klar, was wir zu Beginn des Ausfalls schon befürchtet hatten: Mit unserer bisherigen Lösung, dem schrittweisen Wiederanfahren ohne die Kapazitätsgrenze der fragilen Leitungen zu sprengen, wäre nach dem Ausfall keine dauerhaft stabile Verbindung in unser Mobilfunknetz mehr zustande gekommen. Zwar hätten wir die Probleme kurzfristig erneut fixen können; aus der Welt geschafft wäre die tatsächliche Ursache der Störung damit allerdings nicht. Ab einem bestimmten Auslastungsgrad wäre uns das Problem sehr wahrscheinlich wieder auf die Füße gefallen und die Leitungen erneut in die Knie gegangen.

Umstellung auf IP vorgezogen

Also musste die Lösung her, an der wir seit geraumer Zeit gemeinsam mit Telefonica arbeiten. Und damit sind wir beim eingangs beschriebenen, mutigen Schritt: dem Umzug der Signalisierungskanäle von ISDN auf IP. Bis zum Vorfall am Montag liefen unsere Signalisierungskanäle mit Anbindung an Telefonica über ISDN-Anschlüsse. Diese Anbindung stammt aus dem Jahr 2012 und ist überholt. Das wissen wir schon länger und die Lösung des Problems ist von langer Hand vorbereitet. Den Schwenk auf die neue Lösung hätten wir in zwei Wochen vorgenommen. Doch für Feinschliff war jetzt keine Zeit mehr. Und wir entschieden uns, gemeinsam (und vor allen Dingen schön unbürokratisch) mit Telefonica, den großen Schritt der Umstellung von ISDN auf IP vorzuziehen.

Fehler lokalisiert und behoben

Während dieses Vorgangs entdeckten wir gegen 13:30 Uhr unerwünschte Anfragen von unseren Komponenten an Telefonica und unsere SIM-Karten, da die jeweiligen Antworten über die neue Schnittstelle ins Nichts geroutet wurden. Den Fehler im Routing konnten wir dann im Laufe des Nachmittags lokalisieren und beheben.

Am Ende des Tages haben wir mit dem spontanen Umzug der ISDN-Leitungen auf IP eine stabile Lösung zur Vorbeugung von Mobilfunkausfällen umgesetzt. Das hat viel Zeit und eine ganze Menge Energie und Nerven gekostet. Aber, und das ist entscheidend: Wir haben einen ohnehin geplanten Schritt vorgezogen. Und stehen jetzt mit einer leistungsfähigeren Umgebung viel stabiler und vor allen Dingen redundanter da.

Quelle: SIPGATE Blog

^SysOP