Was ist passiert?
Von dem Moment an, als klar war, dass es eine Störung gibt, haben die sipgate Rädchen ineinander gegriffen. Dass etwas grundsätzlich nicht gut läuft, war uns spätestens – nach kleineren Ausfällen am Sonntag – am Montagmorgen ab etwa halb neun klar. Da zeigten zuerst unsere Systeme, dass die Anbindung zu unserem Mobilfunknetz-Partner Telefonica nicht rund läuft und parallel dazu meldeten sich auch schon die ersten Kund:innen mit Mobilfunkausfällen bei uns. Wie immer in solchen Fällen gab es umgehend ein Status-Update auf status.sipgate.de. Unsere Kundenbetreuer:innen wurden alle auf einen Wissensstand gebracht, der Ansagetext unserer Kundenhotline aktualisiert, der Chatbot mit den neuesten Informationen gefüttert. Dazu haben wir eine Statusmeldung über unseren Status-Account gepostet, und zwar hier: https://twitter.com/sipgateDEstatus
Nach kurzer Problemanalyse stand fest: Der Grund für den Ausfall lag darin, dass die ISDN-Bandbreite zu Telefonica am Limit war. Gegen 10 Uhr fing unsere Experten-Löschtruppe an, wie bei solchen Ausfällen üblich, unsere Kund:innen Stück für Stück zurück in unser Mobilfunknetz zu buchen. In der Hoffnung, dass die Leitungen halten. Das ging auch bis 11 Uhr gut. Da hatten bereits 80 Prozent unserer Kund:innen das Netz wieder zur Verfügung und waren online.
Leitungen der fragilen Art
Leider wiederholte sich das Problem mit der ISDN-Bandbreite. Und so war klar, was wir zu Beginn des Ausfalls schon befürchtet hatten: Mit unserer bisherigen Lösung, dem schrittweisen Wiederanfahren ohne die Kapazitätsgrenze der fragilen Leitungen zu sprengen, wäre nach dem Ausfall keine dauerhaft stabile Verbindung in unser Mobilfunknetz mehr zustande gekommen. Zwar hätten wir die Probleme kurzfristig erneut fixen können; aus der Welt geschafft wäre die tatsächliche Ursache der Störung damit allerdings nicht. Ab einem bestimmten Auslastungsgrad wäre uns das Problem sehr wahrscheinlich wieder auf die Füße gefallen und die Leitungen erneut in die Knie gegangen.
Umstellung auf IP vorgezogen
Also musste die Lösung her, an der wir seit geraumer Zeit gemeinsam mit Telefonica arbeiten. Und damit sind wir beim eingangs beschriebenen, mutigen Schritt: dem Umzug der Signalisierungskanäle von ISDN auf IP. Bis zum Vorfall am Montag liefen unsere Signalisierungskanäle mit Anbindung an Telefonica über ISDN-Anschlüsse. Diese Anbindung stammt aus dem Jahr 2012 und ist überholt. Das wissen wir schon länger und die Lösung des Problems ist von langer Hand vorbereitet. Den Schwenk auf die neue Lösung hätten wir in zwei Wochen vorgenommen. Doch für Feinschliff war jetzt keine Zeit mehr. Und wir entschieden uns, gemeinsam (und vor allen Dingen schön unbürokratisch) mit Telefonica, den großen Schritt der Umstellung von ISDN auf IP vorzuziehen.
Fehler lokalisiert und behoben
Während dieses Vorgangs entdeckten wir gegen 13:30 Uhr unerwünschte Anfragen von unseren Komponenten an Telefonica und unsere SIM-Karten, da die jeweiligen Antworten über die neue Schnittstelle ins Nichts geroutet wurden. Den Fehler im Routing konnten wir dann im Laufe des Nachmittags lokalisieren und beheben.
Am Ende des Tages haben wir mit dem spontanen Umzug der ISDN-Leitungen auf IP eine stabile Lösung zur Vorbeugung von Mobilfunkausfällen umgesetzt. Das hat viel Zeit und eine ganze Menge Energie und Nerven gekostet. Aber, und das ist entscheidend: Wir haben einen ohnehin geplanten Schritt vorgezogen. Und stehen jetzt mit einer leistungsfähigeren Umgebung viel stabiler und vor allen Dingen redundanter da.
Quelle: SIPGATE Blog