The roads I take...

KaiRo's weBlog

Juli 2009
12345
6789101112
13141516171819
20212223242526
2728293031

Zeige Beiträge veröffentlicht im Juli 2009 und mit "RAID" gekennzeichnet an. Zurück zu allen aktuellen Beiträgen

Populäre Tags: Mozilla, SeaMonkey, L10n, Status, Firefox

Verwendete Sprachen: Deutsch, Englisch

Archiv:

Juli 2023

Februar 2022

März 2021

weitere...

6. Juli 2009

Persönlicher Server nach Ausfall hoffentlich gerettet

Wenn ihr euch wundert, warum mein Blog, SeaMonkey deutsch, Find Your NetFriends, andere Communities auf unserem System, www.kairo.at, CBSM oder jegliche andere der Webseiten auf unserem Server für den Großteil des vergangenen Tages nicht verfügbar waren, hier die eine kurze Geschichte dieses toxischen Vorfalls:
  • Der Server hat quasi den Kontakt zu einer Festplatte verloren (sie ist einfach nirgends mehr aufgeschienen),
  • die Software-RAID-5-Treiber unseres System-"Laufwerks" kannten sich nicht damit aus,
  • ich hab ein Kommando erzwungen, um das wieder in Schwung zu bekommen und lief in einen I/O-Fehler (autsch, das heißt meist nichts Gutes),
  • wir schalteten den Server ab, nahmen die Platte raus,
  • gaben sie wieder rein, und sie funktionierte wieder,
  • wir haben das RAID-Array neu erstellt und stellten fest, dass es sein Dateisystem nicht mehr erkannte,
  • das Dateisystem-Reparations-Tool (fsck.ext3) spuckte Millionen von Fehlermeldungen über ungültige Journale und Inodes aus,
  • wir haben es neu formatiert und das ganze System neu installiert,
  • sowie alle wichtigen Daten von Backups wiederhergestellt.
Wie ihr euch wahrscheinlich denken könnt, war im den Tränen nahe, als mir klar wurde, dass unsere geliebte System-Installation zur Gänze flöten gegangen war und ich alles neu aufsetzen konnte. (Nein, unter Linux und besonders bei Servern ist das nicht üblich, das ist KEIN Windows-Heimcomputer.)

Gott sei Dank war ~5-6 Stunden vor dem anfänglichen Systemausfall ein Backup gelaufen, sodass nicht zu viel verloren ging, aber ich brauchte 10-12 Stunden bis zum jetzigen Stand, an dem alles wieder halbwegs in Ordnung zu sein scheint. (Sicherlich werden in den nächsten Tagen noch ein paar Kleinigkeiten auftauchen, aber die hautsächlichen Webseiten scheinen alle OK zu sein, die Mails fließen wieder, usw.)

Wenn ihr mir zwischen 3 und 9 Uhr in der Früh am 5. Juli E-Mails geschickt habt, sind die ziemlich sicher verloren, in anderen Fällen sollten sie angekommen sein oder reinkommen, während das SMTP-Netzwerk mitbekommt, dass unser Server wieder verfügbar ist.

Ich hoffe, die Zeit, die ich dadurch beim Lernen verloren habe, ist nicht zu toxisch für die Prüfung morgen Nachmittag, deren Thema ganz "zufällig" - Toxikologie ist. ;-)

Von KaiRo, um 02:40 | Tags: Ausfall, RAID, Server | 2 Kommentare | TrackBack: 0

Personal Server Outage Hopefully Solved

If you wondered why my blog, SeaMonkey development, SeaMonkey deutsch, www.kairo.at or any other of the sites from my server have been unavailable for most of the last day, here's the story of that toxic incident without going into much detail:
  • The server lost knowledge of a harddisk,
  • the (software/kernel) RAID 5 for our root filesystem choked,
  • I forced a command to reassemble it and with that made it give us an I/O error (ouch),
  • then we turned off the server, put out the disk,
  • put it in again and it worked again,
  • we recreated the RAID array only to discover that though this was fine, it didn't detect the filesystem on it any more,
  • fsck.ext3 choked on it with about a million error messages about invalid journals and inodes,
  • we reformatted it and reinstalled the whole system,
  • restoring all important data from our backups.
You can guess I was on the edge of crying when I saw our beloved root file system go up in flames and I realized I needed to reinstall the whole thing and restore everything from backups.

Thankfully, the backups were from ~5-6 hours before the system went down initially, so not too much lost, but it took me 10-12 hours until now, where everything seems to be alright. (I'm sure I'll discover a few small things in the next few days but things look alright on all major sites, mails flow, etc.)

If you sent mail to me between 3am and 9am CEST on July 5, it's very possibly lost, in other cases it should be there or coming in while the SMTP network realizes that this server is back with them.

I just hope the lost time for studying isn't too toxic for the exam tomorrow, which happens to be in - toxicology. ;-)

Von KaiRo, um 02:18 | Tags: outage, RAID, Server | 1 Kommentar | TrackBack: 0

Feeds: RSS/Atom