Herausforderung
Bei dieser Aufgabe geht es darum den Status und den Zustand von Servern zu überwachen, um schneller zu reagieren, wenn ein Server ausfällt.
Situation
Als IT und Hosting Unternehmen ist es wichtig, den Zustand der Server regelmäßig zu überprüfen und zu warten. Ausfallzeiten kosten viel Geld. Derzeit gibt ein internes Team, das die Serverräume verwaltet. Jedoch kann es aufgrund der Reaktionszeit der Mitarbeiter einige Zeit dauern, bis ein Fehler festgestellt wird und das Problem behoben werden kann. Wir möchten den Status und den Zustand dieser Server überwachen und schneller reagieren, wenn etwas passiert.
Einzelheiten
Es gibt vier Server, die über Ping-Anfragen überwacht werden. Wenn einer oder mehrere Server nach 2 – 3 Minuten nicht antworten, wird eine Benachrichtigung ausgelöst. Bei einer Störung sollen nacheinander folgende, verantwortliche Personen angerufen werden:
- IT-Techniker
- IT-Supervisor
- IT-Manager
- Geschäftsführer
Solange keiner der Verantwortlichen die Störung quittiert, sollen sie viermal angerufen werden. Wenn keiner innerhalb dieser vier Rufzyklen die Störung quittiert, sollte ein vollständiger (Gebäude-) Alarm, gemäß der Loxone-Standardeinstellung, ausgelöst werden. Die Mitarbeiter können den Alarm und auch die Rufzyklen über die Loxone App quittieren. Falls kein Internet zur Verfügung steht, soll die Quittierung auch möglich sein, indem die Ruftasten 1, 2, 3 auf dem Telefon gedrückt werden.
Wenn ein Server offline geht, soll sofort ein Wake-on-Lan-Paket gesendet werden, um ihn wieder zu starten. Durch einen Neustart des Miniservers sollte es keine Störmeldung geben.
Zusatzaufgabe
Gibt es noch andere Möglichkeiten Serverräume zu überwachen? Finden Sie noch drei weitere Wege, wie Sie möglichst früh Störungen erkennen und melden können.
Lösung