NAS defekt. Wie defekte Platte herausfinden?

  • Hallo Experten,

    ich betreibe ein RAID5 NAS am Raspberry 4 mit 3*3 TB Platten (5.5 TB nutzbar). Als Software wird mdadm verwendet. Das NAS wird von Windows-10 gemounted und von anderen Raspis. Läuft seit langer Zeit supergut. Jetzt komme ich immer wieder über Windows nicht mehr drauf, das Verzeichnis wird als leer angezeigt. Vom RPi wird bei Zugriff "E/A Fehler" angezeigt. Nach reboot läuft wieder alles, über Nacht dann wieder der Fehler. Im Logfile steht dass das Raid wieder aufgebaut wird (genauen Text vergessen) mit tausenden von Fehlermeldungen.

    Jetzt meine Fragen.

    - Sollte ein RAID5 NAS nicht auch mit zwei Platten weiterlaufen statt ganz auszufallen? Mein Kenntnisstand ist, dass bei Raid5 immer eine der drei Platten ausfallen kann und sich mit einer Ersatzplatte neu aufbaut.

    - Wie bekomme ich heraus, welche der drei Platten Ärger macht, damit ich sie austauschen kann?

    - Repariert sich das Raid nach Neustart von selbst oder wie muss ich das anstossen?

    - Als neue Platte möchte ich gern eine größere einsetzen und dann nach und nach die anderen beiden auch durch größere ersetzen.

    Aber ich bin kein Experte, daher meine Fragen. Neue Platten kommen morgen und dann muss ich etwas tun.

    Danke für eure Hilfe.

    Hajo.

  • Ja, bei Raid5 darf eine Platte ausfallen, die Daten bleiben zugreifbar.

    Wird die defekte Platte getauscht, startet i.d.R. auch ein Rebuild.

    Ich habe aber bisher noch nie ein NAS bzw- Raid mit einem Pi aufgebaut, möglicherweise muss der Rebuild per mdadm angestossen werden (evtl. muss die defekte Platte per mdadm Befehl entfernt und eine neue hinzugefügt werden).

    Den Status solte man wie folgt erhalten:

    Die o.a. Ausgabe ist von einem QNAP NAS, sollte aber bei Dir auch so funktionieren, das Gerät (hier /dev/md1) musst Du natürlich richtig angeben.

    Gruss

  • - Sollte ein RAID5 NAS nicht auch mit zwei Platten weiterlaufen statt ganz auszufallen? Mein Kenntnisstand ist, dass bei Raid5 immer eine der drei Platten ausfallen kann und sich mit einer Ersatzplatte neu aufbaut.

    Ich kenne als Minimalanzahl von Platten für ein RAID-5 vier Platten, drei wären, so meine INformationen, die minimale Anzahl von funktionierenden Platten.

    In deinem Fall fällt, wenn die eine Platte ausfällt, also das ganze RAID 'auseinander', es kommt aber nach dem Neustart wieder sauber hoch, so dass du bis zum nächsten Ausfall dieser Platte zugreifen kannst.

    - Wie bekomme ich heraus, welche der drei Platten Ärger macht, damit ich sie austauschen kann?

    Ich hatte das bei meinem RAID dadurch gelöst, dass ich die Platten einzeln an einem Linux-System, in das jedes mal eine der möglichen Platten gesteckt wurde, mit dem smartmon-Tools die Platte abgefragt hatte. Wobei bei mir die defekte Platte sich überhaupt nicht mehr als Platte gemeldet hatte.

    - Repariert sich das Raid nach Neustart von selbst oder wie muss ich das anstossen?

    Du musst bei der neuen Platte erst einmal ein passendes Dateisystem draufbringen. Dann kannst du die defekte Platte, so sie in de md-Tools noch enthalten ist, herauswerfen und die neue Platte mit ihrer UUID hinzufügen.

    Läuft das System wirklich mit zwei funktionierenden und einer defekten Platte (s.o.) sollte der Rebuild anlaufen. Ansonsten müsstest du erst die vierte Platte hinzufügen, um dann die defekte Platte, die ja noch kurzfristig läuft, herausnehmen, nachdem das RAID auf die vier Platten ausgeweitet wurde.

    Hier besteht dann, weil die defekte Platte durch den Rebuild sehr gestresst wird, die Gefahr, dass wirklich nichts mehr geht.

    Als neue Platte möchte ich gern eine größere einsetzen und dann nach und nach die anderen beiden auch durch größere ersetzen.

    Ja, das sollte gehen, das Dateisystem der neuen Platte wird auf die gewünschte neue Größe gebracht und dann der Rebuild angestoßen. Dann kommt die nächste Platte in der neuen Größe und zum Schluss die letzte Platte, ist dann das noch kleinere Volume komplett, sollte mit einem Dateisystem-resize die neue Größe erreicht werden können.

    ====

    Wie gesagt, (für mich) ist 4 die minimale Platten-Anzahl in einem RAID-5

    Man kann überlegen, kein md-Raid anzulegen, sondern mittels eines LVM (logical Volume Manager) die Platten zusammenfassen. Diese kann man dann leichter vergrößern.

    Ich habe mich damit noch nicht beschäftigt, kann dir also nicht sagen, wie sich das ganze bei einem Ausfall einer der betroffenen Platten verhält.

    Bei den Solaris-Systemen, auf denen die von mit betreute Software lief, waren für die Hardware und damit auch den LVM andere Kollegen zuständig.

    Computer ..... grrrrrr

  • Zitat

    - Wie bekomme ich heraus, welche der drei Platten Ärger macht, damit ich sie austauschen kann?

    Danke für eure Tips. Aber als ersten Schritt wäre es toll, wenn ich hierzu etwas erfahren könnte.

    Code
    $ cat /proc/mdstat : show status of all RAID devices
    $ mdadm --detail /dev/md0 : detailed information about RAID md0 (mdadm -D)
    $ mdadm --detail --brief /dev/md0 : for shorthened/brief details (mdadm -Db)
    $ mdadm --query /dev/md0 : quick human-readable summary of RAID md0 (mdadm -Q)
    $ mdadm --examine /dev/sdx : information about RAID component device sdx (mdadm -E)
    
    (Quelle: https://gist.github.com/leandrofilipe/f9636be272f97d414652ce1f21e6b1f4)

    Diese Sachen habe ich schon ausprobiert, sieht alles gut aus. Für keine Platte gibts irgendwelche Fehlerangaben. Wahrscheinlich muss ich erst warten, bis das Problem wieder auftritt.

    Einmal editiert, zuletzt von hajoko (10. Mai 2023 um 18:45)

  • Ohne Ausgabe ist es natürlich schwierig. E/A Fehler kann vieles sein, auch, dass die Platten z.B. gar nicht mehr ansprechbar sind.

    Wie ist denn die Spannungsversorgung geregelt?

    Wenn das immer über Nacht auftritt, wird da etwas ausgeschaltet?

    Steht sonst etwas im Log, das hilfreich sein könnte?

    So ist das alles :gk1: .

    Gruss

  • Außer Backup läuft nachts nicht, Server läuft unverändert durch, es wird nichts an- oder abgeschaltet. Alles läuft über USV. Syslog zeigt Unmengen von Fehlermeldungen, ist extrem groß. Einzige das Problem betreffende Zeile ist, dass das Raid neu aufgebaut wird. Und nach reboot läuft es ja dann auch wieder. Ich vermute, dass der Backup so viel IO macht, dass eine Platte nachts überfordert ist. Vergangene Nacht ist zum Glück nichts passiert. Wenn heute die neuen Platten kommen weiß ich nicht, welches die kranke Platte ist und wenn ich dann die falsche austausche, sind meine Daten u.U. weg.

    Gruß, Hajo.

  • Gestern hatte ich den Logfile mit more durchgesehen, heute habe ich den syslog.1 mal nach "raid" durchsucht. Ein "sudo cat /var/log/syslog.1| grep raid" liefert nachfolgende Ergebnisse.

    Jetzt weiß ich wenigstens, welche Platte der Übeltäter ist. Jetzt bleibt nur herauszufinden, welcher USB-Anschluss sda1 ist. Und die Platte werde ich dann gegen eine neue 4TB austauschen und hoffen, dass der rebuild automatisch durchläuft.

    Danke erstmal für alle Hilfen.

    Gruß, Hajo.

  • Dafür hast man mal was erfunden...

    ach ja, "Backup" hieß das. ;)

    Gruss

    Edit: wenn es ein Backup gibt, ist es ja gut. Wenn das Backup auf dem Raid liegt, dann sind die Daten ja noch am Originalspeicherort. Wo geht also etwas verloren?

    Doch, es gibt ein nächtliches Backup mit Versionierung (daily, weekly, monthly usw) ... ;) auf einer externen Platte. Backup auf dem Raid selbst scheint mir nicht wirklich sinnvoll. :no_sad:

  • Na, dann geht schon mal nichts verloren, außer der Zeit für einen Restore ;) .

    Und Du ahnst nicht, wieviele Nutzer es gibt, die ein Raid als Backup ansehen und dann bitterlich weinen, wenn das Raid kaputt und die Daten weg sind. :rolleyes:

    Und ein Backup auf demselben Medium wie die Daten ist sinn- und nutzlos.

    :/ Kriegt man nicht über blkid heraus, welches Gerät /dev/sda/ ist?

    Gruss

  • :/ Kriegt man nicht über blkid heraus, welches Gerät /dev/sda/ ist?

    Leider nein. Ich habe jetzt an einem anderen Rpi die Anschlüsse mit einer SD-Karte durchprobiert. Es gibt leider keine Angabe dabei welcher Anschluss sda1 ist, die heißen alle sda1. Es gibt keine Hinweise auf den physikalischen Anschluss. Wer zuerst kommt, bekommt sda1, egal an welchem Port. Hat jemand eine Idee dazu?

  • Noch eine Seltsamkeit. Alle 3 Platten sind absolut identisch: "Intenso Memory Board 3 TB, Modell ‎6033511 (Amazon)". Die eine zeigt bei Aktivität eine blinkende grüne LED, die nächste eine blinkende blaue LED und bei einer bleibt die LED aus. Kann man daraus einen Hinweis bekommen?

  • Nein, sollte nicht helfen. Beim Raid wird immer auf alle Platten geschrieben, daher kann man daraus nichts schließen.

    Ist eine S/N erkennbar auf dem Gehäuse? Bei einem QNAP wird die S/N zumindest in einer Config Datei abgelegt.

    Auch kann man dort SMART Werte auslesen und dann zuordnen.

    Gruss

  • Nein, sollte nicht helfen. Beim Raid wird immer auf alle Platten geschrieben, daher kann man daraus nichts schließen.

    Ist eine S/N erkennbar auf dem Gehäuse? Bei einem QNAP wird die S/N zumindest in einer Config Datei abgelegt.

    Auch kann man dort SMART Werte auslesen und dann zuordnen.

    Gruss

    Ich dachte, ich bin einen Schritt weiter. Habe jetzt SMART installiert, das gibt mir für jede Platte die Seriennummer aus. Leider haben die Herrschaften von Intenso es nicht für nötig befunden, diese Seriennummer auf ihr Schildchen unter der Platte zu drucken. Also wieder Sackgasse... :wallbash:

Jetzt mitmachen!

Du hast noch kein Benutzerkonto auf unserer Seite? Registriere dich kostenlos und nimm an unserer Community teil!