Serverausfall 9:40-13:40

Mitten in einem Satz ließ sich ein Text für die WordPress-Seite nicht mehr speichern. Keine zwei Minuten danach läutete das Telefon und Werner bestätigt, dass nichts geht. Alle Server und die Leitungen sind down.

Eigentlich wollte ich schon unseren Provider anrufen, doch da gleichzeitig zwei Leitungen und damit alle Server ausgefallen sind, vermutet Werner, dass es eher im Bereich der HTL liegt.

Ein Telefonat mit Abteilungsvorstand Hager bringt Klarheit, ein Stromausfall; einer von der gröberen Sorte. Sicherungsschalter hochkippen geht da nicht mehr, das sind gröbere Sicherungen. Es dauert einige Zeit, bis der Elektriker vor Ort ist.

Als ich in den Keller der HTL komme, ist es gespenstisch still und überall brennt nur Notlicht.

Nach einiger Zeit aber hört man plötzlich wieder das Heulen der Ventilatoren. Alles läuft wieder, glaubt der Laie. Die Wahrheit ist, dass zwar alle Server hochgefahren sind aber dennoch keine Verbindung nach außen besteht.

Ferngesteuert

Leider ist Werner dienstlich unterwegs und ich stehe vor den Blechkisten und führe Anweisungen von Werner aus. Eine Ferndiagnose vor Werner ortet rasch die Schuldigen; es sind zwei CISCO Switches C6504 . Einer ist für die Anbindung der Glasfaserleitung zuständig, der andere für die Versorgung des Clubnetzwerkes. Bei beiden muss das Betriebssystem-Image über eine serielle Schnittstelle neu installiert werden.

Welcher PC hat heute noch eine serielle Schnittstelle? Richtig, keiner. Daher hat Werner einen Uralt-Laptop für diesen Zweck zum Einsatz gebracht.

Ein Laptop mit serieller Schnittstelle dient als Terminal zu den CISCO-Routern
Ein Laptop mit serieller Schnittstelle dient als Terminal zu den CISCO-Routern

Damit die Zeit vergeht, führe ich den Vorgang zuerst einmal an zwei falschen Geräten aus, eine Art Vorübung.

Hier sieht man die entscheidende Sequenz zum Booten des Switch. dir disk1: und boot disk1:
Hier sieht man die entscheidende Sequenz zum Booten des Switch. dir disk1: und boot disk1:

Der Bootvorgang dauert pro Gerät etwa 20 Minuten. Das Ziel soll sein, dass auf dem Gerät vier Kontroll-LEDs den richtigen Betriebszustand anzeigen.

Zwei CISCO-Router/Switches C6504. Oben funktionsfähig, unten noch nicht gebootet.
Zwei CISCO-Router/Switches C6504. Oben funktionsfähig, unten noch nicht gebootet.

Während dieser Zeit kommt ein Elektriker und arbeitet an dem Sicherungskasten. Er beruhigt mich, es werde keinen Ausfall mehr geben.

Nachdem alle Geräte korrekt gebootet sind, ist der Fehler immer noch nicht behoben. Alles leuchtet grün aber es gibt keine Verbindung.

Ich muss auf Christian Schöndorfer warten, der mit diesen CISCO-Switches vertraut ist und in einer weiteren Telefonkonferenz mit Werner einige geheimnisvolle Kommandos absetzt aber auch keinen Fehler findet.

Darstellung der Routen auf einem Switch
Darstellung der Routen auf einem Switch

Christian vermutet den Fehler in der Firewall, einen Schrank weiter. Ich verbinde mich mit der Firewall und Christian setzt einige Pings ab, worauf Werner schon frohlockt, dass erste Dienste wieder funktionsfähig wären.

In der oberen Firewall war der Fehler
In der oberen Firewall war der Fehler

Was also war der Fehler?

Christian vermutet, dass die beiden Firewalls, die in einem Load-Balancing-Betrieb arbeiten, sich nicht protokollarisch verständigen konnten aber das manuelle Absetzen der PING-Befehle über die Konsole die Firewall „geheilt“ hat.

Es war etwa so wie Handauflegen.

Christian berichtet, dass der Serverraum mit 35 A abgesichert ist aber ein Strom von 53 A fließt. Da müssen wir etwas unternehmen, um nicht gleich wieder in einen Stromausfall zu geraten.

Als erste Maßnahme wurden fünf nicht mehr aktive Server stillgelegt.

Als nächstes müssen wir herausfinden,  ob es einen auffälligen Stromfresser gibt. Wir sind aber nicht allein im Serverraum, es gibt auch noch die Server der Schule.

Nachdem der Statusreport nur mehr grüne Pfeile nach oben zeigt, mache ich mich auf den Heimweg. Vier Stunden hat der Spuk gedauert.

Vierstündiger Ausfall am 20. Oktober
So stellt sich der Ausfall grafisch auf status.ccc.at dar

Beitrag veröffentlicht

in

von