RAID6-osgiliath

Supermicro X11SCL-F https://www.supermicro.com/en/products/motherboard/X11SCL-F
Intel i5-9400F, 6 Core
32 GB Hauptspeicher, (Up to 128GB DDR4 2666MHz ECC UDIMM; 4 DIMM slots)
INTEL SSD SA2M040G2GC 40 GB (total lahm, nur 40 MB/s)
Samsung 980 Pro M.2 500 GB

Festplatten-Positionen

Plattenpositionen

6

_______________

5
_______________
4
_______________
3
_______________
2
_______________
1
_______________

Bay     Serial           /dev/disk/by-id/                             RAID-Rolle Device  Size  RATE  Hour  SCT
6       WD-WCC4M5ZDK1AE  "ata-WDC_WD20EFRX-68EUZN0_WD-WCC4M5ZDK1AE"   3          sdf     2TB   5400  49k   SET
4       WD-WCC4M0XEZ7CH  "ata-WDC_WD20PURX-64P6ZY0_WD-WCC4M0XEZ7CH"   0          sdg     2TB   5400  27k   SET
5       Z4Z1NB4W         "ata-ST2000VX004-1RU164_Z4Z1NB4W"            2          sda     2TB   7200  49k   UNSET
3       ZFL0QH84         "ata-ST2000DM008-2FR102_ZFL0QH84"            1          sde     2TB   7200  9k    NA
2       5544688GS        "ata-TOSHIBA_DT01ACA300_5544688GS"           4          sdd     3TB   7200  24k   UNSET
1       WD-WCC4M3YLP4DT  "ata-WDC_WD20EFRX-68EUZN0_WD-WCC4M3YLP4DT"   spare      sdb     2TB   5400  3k    SET

Details

/dev/md127:
          Version : 1.2
    Creation Time : Wed Jan 28 22:47:57 2015
       Raid Level : raid6
       Array Size : 5860147200 (5.46 TiB 6.00 TB)
    Used Dev Size : 1953382400 (1862.89 GiB 2000.26 GB)
     Raid Devices : 5
    Total Devices : 6
      Persistence : Superblock is persistent
    Intent Bitmap : Internal
      Update Time : Tue Jan 19 16:57:15 2021
            State : active
   Active Devices : 5
  Working Devices : 6
   Failed Devices : 0
    Spare Devices : 1

           Layout : left-symmetric
       Chunk Size : 512K

Consistency Policy : bitmap

             Name : raib23:0
             UUID : a9b9721a:7da8602e:313975c3:10fa337e
           Events : 39932

   Number   Major   Minor   RaidDevice State
      9       8       65        0      active sync   /dev/sde1
      5       8       17        1      active sync   /dev/sdb1
      4       8       49        2      active sync   /dev/sdd1
      7       8       81        3      active sync   /dev/sdf1
     10       8       33        4      active sync   /dev/sdc1

      8       8        1        -      spare   /dev/sda1

Logbuch

28.01.2015 Erstellt

erstellt am "Wed Jan 28 22:47:57 2015" auf raib23
4x 512 GByte im RAID 6 migriert auf
4x 2 TB im RAID 6 (-> 4 TB) migriert auf
5x 2 TB im RAID 6 (-> 6 TB)

26.07.2019 Ausfall von "sde"

[9159727.049398] md/raid:md127: Disk failure on sde1, disabling device.
                 md/raid:md127: Operation continuing on 4 devices.

AUTOMATISCH wurde "sdf" vom "spare" zum Verband hinzugefügt

[9159732.583652] md: recovery of RAID array md127
[9186393.380680] md: md127: recovery done.
[9186394.116871] RAID conf printout:
[9186394.116878]  --- level:6 rd:5 wd:5
[9186394.116881]  disk 0, o:1, dev:sdf1
[9186394.116884]  disk 1, o:1, dev:sdg1
[9186394.116886]  disk 2, o:1, dev:sdb1
[9186394.116888]  disk 3, o:1, dev:sda1
[9186394.116890]  disk 4, o:1, dev:sdc1

nunmehr bot sich folgendes Bild

   Number   Major   Minor   RaidDevice State
      9       8       81        0      active sync   /dev/sdf1
      6       8       97        1      active sync   /dev/sdg1
      4       8       17        2      active sync   /dev/sdb1
      7       8        1        3      active sync   /dev/sda1
      8       8       33        4      active sync   /dev/sdc1

      5       8       65        -      faulty   /dev/sde1
     10       8       49        -      spare   /dev/sdd1

nach einem remove der faulty Platte

   Number   Major   Minor   RaidDevice State
      9       8       81        0      active sync   /dev/sdf1
      6       8       97        1      active sync   /dev/sdg1
      4       8       17        2      active sync   /dev/sdb1
      7       8        1        3      active sync   /dev/sda1
      8       8       33        4      active sync   /dev/sdc1

     10       8       49        -      spare   /dev/sdd1

21.10.2019 Ausfall von sdc

Heute Abend waren die Shares plötzlich unendlich langsam
Teilweise waren sogar die Shares "offline"
Im Serverraum dann folgendes Bild: eine LED einer Platte war dauerhaft an, also wie unter Dauerfeuer
Das HDD LED des Mainboards war auch auf Dauerbetrieb ohne Flackern, also irgendwas schlimm im argen
Ich habe die "schuldige" Platte einfach rausgezogen,
Durch die Entnahme löste sich die Endlosschleife, das device wurde automatisch removed
danach wurde automatisch das Spare in den Verbund aufgenommen
Es erfolgte der Weiterbetrieb störungsfrei und das Recovery mit Hilfe des Spares
Ich habe gleich 2 neue 2 TB Platten bestellt

[Mon Oct 21 19:50:35 2019] ata5.00: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
[Mon Oct 21 19:50:35 2019] ata5.00: irq_stat 0x00400040, connection status changed
[Mon Oct 21 19:50:35 2019] ata5: SError: { HostInt PHYRdyChg 10B8B DevExch }
[Mon Oct 21 19:50:35 2019] ata5.00: failed command: READ DMA EXT
[Mon Oct 21 19:50:35 2019] ata5.00: cmd 25/00:08:f0:4f:fa/00:00:43:00:00/e0 tag 26 dma 4096 in
                                    res 50/00:00:ef:4f:fa/00:00:43:00:00/e3 Emask 0x50 (ATA bus error)
[Mon Oct 21 19:50:35 2019] ata5.00: status: { DRDY }
[Mon Oct 21 19:50:35 2019] ata5: hard resetting link
[Mon Oct 21 19:50:36 2019] ata5: SATA link down (SStatus 0 SControl 310)
[Mon Oct 21 19:50:41 2019] ata5: hard resetting link
[Mon Oct 21 19:50:41 2019] ata5: SATA link down (SStatus 0 SControl 310)
[Mon Oct 21 19:50:46 2019] ata5: hard resetting link
[Mon Oct 21 19:50:47 2019] ata5: SATA link down (SStatus 0 SControl 310)
[Mon Oct 21 19:50:47 2019] ata5.00: disabled
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] tag#26 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] tag#26 Sense Key : Illegal Request [current]
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] tag#26 Add. Sense: Unaligned write command
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] tag#26 CDB: Read(16) 88 00 00 00 00 00 43 fa 4f f0 00 00 00 08 00 00
[Mon Oct 21 19:50:47 2019] blk_update_request: I/O error, dev sdc, sector 1140477936
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: rejecting I/O to offline device
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] killing request
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: rejecting I/O to offline device
... 
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: rejecting I/O to offline device
[Mon Oct 21 19:50:47 2019] ata5: EH complete
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] FAILED Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] CDB: Read(16) 88 00 00 00 00 00 43 fa 4f f8 00 00 00 08 00 00
[Mon Oct 21 19:50:47 2019] blk_update_request: I/O error, dev sdc, sector 1140477944
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: rejecting I/O to offline device
[Mon Oct 21 19:50:47 2019] ata5.00: detaching (SCSI 4:0:0:0)
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] Stopping disk
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] Start/Stop Unit failed: Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
[Mon Oct 21 19:50:51 2019] md/raid:md127: Disk failure on sdc1, disabling device.
                           md/raid:md127: Operation continuing on 4 devices.
[Mon Oct 21 19:51:01 2019] RAID conf printout:
[Mon Oct 21 19:51:01 2019]  --- level:6 rd:5 wd:4
[Mon Oct 21 19:51:01 2019]  disk 0, o:1, dev:sde1
[Mon Oct 21 19:51:01 2019]  disk 1, o:1, dev:sdf1
[Mon Oct 21 19:51:01 2019]  disk 2, o:1, dev:sdb1
[Mon Oct 21 19:51:01 2019]  disk 3, o:1, dev:sda1
[Mon Oct 21 19:51:01 2019]  disk 4, o:0, dev:sdc1
[Mon Oct 21 19:51:01 2019] RAID conf printout:
[Mon Oct 21 19:51:01 2019]  --- level:6 rd:5 wd:4
[Mon Oct 21 19:51:01 2019]  disk 0, o:1, dev:sde1
[Mon Oct 21 19:51:01 2019]  disk 1, o:1, dev:sdf1
[Mon Oct 21 19:51:01 2019]  disk 2, o:1, dev:sdb1
[Mon Oct 21 19:51:01 2019]  disk 3, o:1, dev:sda1
[Mon Oct 21 19:51:01 2019] RAID conf printout:
[Mon Oct 21 19:51:01 2019]  --- level:6 rd:5 wd:4
[Mon Oct 21 19:51:01 2019]  disk 0, o:1, dev:sde1
[Mon Oct 21 19:51:01 2019]  disk 1, o:1, dev:sdf1
[Mon Oct 21 19:51:01 2019]  disk 2, o:1, dev:sdb1
[Mon Oct 21 19:51:01 2019]  disk 3, o:1, dev:sda1
[Mon Oct 21 19:51:01 2019]  disk 4, o:1, dev:sdd1
[Mon Oct 21 19:51:01 2019] md: unbind<sdc1>
[Mon Oct 21 19:51:01 2019] md: export_rdev(sdc1)
[Mon Oct 21 19:51:01 2019] md: recovery of RAID array md127
[Mon Oct 21 19:51:01 2019] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
[Mon Oct 21 19:51:01 2019] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
[Mon Oct 21 19:51:01 2019] md: using 128k window, over a total of 1953382400k.

Während, bzw. am Anfang des recovery war einmalig eine Störung auf ata7, das ist sdd

cat d2 | grep host | grep /ata

Rolle dev Störungsfrei Alter Port
 3     sda +  39925          /devices/pci0000:00/0000:00:17.0/ata3/host2/target2:0:0/2:0:0:0
 2     sdb +  39972          /devices/pci0000:00/0000:00:17.0/ata4/host3/target3:0:0/3:0:0:0
 4     sdd -  14875          /devices/pci0000:00/0000:00:01.1/0000:02:00.0/ata7/host6/target6:0:0/6:0:0:0
 0     sde +  18343          /devices/pci0000:00/0000:00:01.1/0000:02:00.0/ata9/host8/target8:0:0/8:0:0:0
 1     sdf +  39931          /devices/pci0000:00/0000:00:01.1/0000:02:00.0/ata10/host9/target9:0:0/9:0:0:0

Nachts war dann das recovery durch

[Tue Oct 22 03:57:48 2019] md: md127: recovery done.
[Tue Oct 22 03:57:48 2019] RAID conf printout:
[Tue Oct 22 03:57:48 2019]  --- level:6 rd:5 wd:5
[Tue Oct 22 03:57:48 2019]  disk 0, o:1, dev:sde1
[Tue Oct 22 03:57:48 2019]  disk 1, o:1, dev:sdf1
[Tue Oct 22 03:57:48 2019]  disk 2, o:1, dev:sdb1
[Tue Oct 22 03:57:48 2019]  disk 3, o:1, dev:sda1
[Tue Oct 22 03:57:48 2019]  disk 4, o:1, dev:sdd1

Dies ausgefallene Platte habe ich an ein anderes System gehängt
Obwohl diese Platte aus der boot-Reihenfolge komplett raus war hat das BIOS sich geweigert die Platte einzutragen
Es muss ein Massiver Ausfall der Plattenelektronik gewesen sein

24.10.2019 Hinzufügen von 2 spares

Es wurden 2 spare-Platten hinzugefügt
- Einbau in A2 WD Red S/N "WCC4M3YLP4DT" als "sde"
- Einbau in A4 Seagate BarraCuda S/N "ZFL0QH84" als "sdc"

18.09.2020 Umzug

von openSuse 42.2 auf 15.2
von "server" auf "raib23"

14.11.2020 XEON defekt

System steht, geht nicht mehr an
an einem frischen Netzteil geht er wieder an
ECC Fehler im Protokoll, x86 memtest ohne Befund
einige Tage nur mit einem Memory-Modul laufen gelassen (8 GB)
was ich später erst bemerkte: 2 Cores des XEON sind weg!!!!
WD-WCC4M1ZJ8ZKZ geht in Rente, 50k Betriebsstunden

17.11.2020

Boot von nvme ist nicht möglich, er ekennt die UEFI Bootmöglichkeit am PCIe Slot nicht
ev. Umstellung auf MZ-76P256B
die eingebaute 850 pro hat 50.000 Betriebsstunden, sollte bald getauscht werden

20.11.2020

Neubeschaffung: Crucial BX500 240GB
Neubeschaffung: Xeon E3-1271v3

19.01.2021 Umzug

Umzug von raib23 auf osgiliath, dabei festgestellt dass ein PCIe Controller nicht geht!

RAID6-osgiliath

Inhaltsverzeichnis

Festplatten-Positionen

Details

Logbuch

28.01.2015 Erstellt

26.07.2019 Ausfall von "sde"

21.10.2019 Ausfall von sdc

24.10.2019 Hinzufügen von 2 spares

18.09.2020 Umzug

14.11.2020 XEON defekt

17.11.2020

20.11.2020

19.01.2021 Umzug

Navigationsmenü