The roads I take...
KaiRo's weBlog
| Zeige Beiträge veröffentlicht am 06.07.2009 an. Zurück zu allen aktuellen Beiträgen |
6. Juli 2009
Persönlicher Server nach Ausfall hoffentlich gerettet
Wenn ihr euch wundert, warum mein Blog, SeaMonkey deutsch, Find Your NetFriends, andere Communities auf unserem System, www.kairo.at, CBSM oder jegliche andere der Webseiten auf unserem Server für den Großteil des vergangenen Tages nicht verfügbar waren, hier die eine kurze Geschichte dieses toxischen Vorfalls:
Gott sei Dank war ~5-6 Stunden vor dem anfänglichen Systemausfall ein Backup gelaufen, sodass nicht zu viel verloren ging, aber ich brauchte 10-12 Stunden bis zum jetzigen Stand, an dem alles wieder halbwegs in Ordnung zu sein scheint. (Sicherlich werden in den nächsten Tagen noch ein paar Kleinigkeiten auftauchen, aber die hautsächlichen Webseiten scheinen alle OK zu sein, die Mails fließen wieder, usw.)
Wenn ihr mir zwischen 3 und 9 Uhr in der Früh am 5. Juli E-Mails geschickt habt, sind die ziemlich sicher verloren, in anderen Fällen sollten sie angekommen sein oder reinkommen, während das SMTP-Netzwerk mitbekommt, dass unser Server wieder verfügbar ist.
Ich hoffe, die Zeit, die ich dadurch beim Lernen verloren habe, ist nicht zu toxisch für die Prüfung morgen Nachmittag, deren Thema ganz "zufällig" - Toxikologie ist.
- Der Server hat quasi den Kontakt zu einer Festplatte verloren (sie ist einfach nirgends mehr aufgeschienen),
- die Software-RAID-5-Treiber unseres System-"Laufwerks" kannten sich nicht damit aus,
- ich hab ein Kommando erzwungen, um das wieder in Schwung zu bekommen und lief in einen I/O-Fehler (autsch, das heißt meist nichts Gutes),
- wir schalteten den Server ab, nahmen die Platte raus,
- gaben sie wieder rein, und sie funktionierte wieder,
- wir haben das RAID-Array neu erstellt und stellten fest, dass es sein Dateisystem nicht mehr erkannte,
- das Dateisystem-Reparations-Tool (fsck.ext3) spuckte Millionen von Fehlermeldungen über ungültige Journale und Inodes aus,
- wir haben es neu formatiert und das ganze System neu installiert,
- sowie alle wichtigen Daten von Backups wiederhergestellt.
Gott sei Dank war ~5-6 Stunden vor dem anfänglichen Systemausfall ein Backup gelaufen, sodass nicht zu viel verloren ging, aber ich brauchte 10-12 Stunden bis zum jetzigen Stand, an dem alles wieder halbwegs in Ordnung zu sein scheint. (Sicherlich werden in den nächsten Tagen noch ein paar Kleinigkeiten auftauchen, aber die hautsächlichen Webseiten scheinen alle OK zu sein, die Mails fließen wieder, usw.)
Wenn ihr mir zwischen 3 und 9 Uhr in der Früh am 5. Juli E-Mails geschickt habt, sind die ziemlich sicher verloren, in anderen Fällen sollten sie angekommen sein oder reinkommen, während das SMTP-Netzwerk mitbekommt, dass unser Server wieder verfügbar ist.
Ich hoffe, die Zeit, die ich dadurch beim Lernen verloren habe, ist nicht zu toxisch für die Prüfung morgen Nachmittag, deren Thema ganz "zufällig" - Toxikologie ist.
Von KaiRo, um 02:40 | Tags: Ausfall, RAID, Server | 2 Kommentare | TrackBack: 0
Personal Server Outage Hopefully Solved
If you wondered why my blog, SeaMonkey development, SeaMonkey deutsch, www.kairo.at or any other of the sites from my server have been unavailable for most of the last day, here's the story of that toxic incident without going into much detail:
Thankfully, the backups were from ~5-6 hours before the system went down initially, so not too much lost, but it took me 10-12 hours until now, where everything seems to be alright. (I'm sure I'll discover a few small things in the next few days but things look alright on all major sites, mails flow, etc.)
If you sent mail to me between 3am and 9am CEST on July 5, it's very possibly lost, in other cases it should be there or coming in while the SMTP network realizes that this server is back with them.
I just hope the lost time for studying isn't too toxic for the exam tomorrow, which happens to be in - toxicology.
- The server lost knowledge of a harddisk,
- the (software/kernel) RAID 5 for our root filesystem choked,
- I forced a command to reassemble it and with that made it give us an I/O error (ouch),
- then we turned off the server, put out the disk,
- put it in again and it worked again,
- we recreated the RAID array only to discover that though this was fine, it didn't detect the filesystem on it any more,
- fsck.ext3 choked on it with about a million error messages about invalid journals and inodes,
- we reformatted it and reinstalled the whole system,
- restoring all important data from our backups.
Thankfully, the backups were from ~5-6 hours before the system went down initially, so not too much lost, but it took me 10-12 hours until now, where everything seems to be alright. (I'm sure I'll discover a few small things in the next few days but things look alright on all major sites, mails flow, etc.)
If you sent mail to me between 3am and 9am CEST on July 5, it's very possibly lost, in other cases it should be there or coming in while the SMTP network realizes that this server is back with them.
I just hope the lost time for studying isn't too toxic for the exam tomorrow, which happens to be in - toxicology.
Von KaiRo, um 02:18 | Tags: outage, RAID, Server | 1 Kommentar | TrackBack: 0