RAID6-2017

host "raib23", ehemals "server"
Supermicro X10SLH-F, Socket 1150
XEON 1231v3 4x 3.40GHz, 8 Threads (defekt, nur noch 2 Cores)
54406.95 BogoMIPS
32 GB ECC RAM
BIOS 3.3a, BMC 03.90
Raid-6 aus 5+2 2TB Partitionen
Dateisystem: ext4 (ohne 64 Bit!)
Maximaler Vollausbau (da 32 Bit-ext4):
7x 3 TB im RAID 6 (-> 15 TB)

Festplatten-Positionen

Plattenpositionen

B3

_______________

B2
_______________
B1
_______________
A4
_______________
A3
_______________
A2
_______________
A1 leer
_______________

Bay       Kabel Port  Serial           /dev/disk/by-id/                             RAID-Rolle Device  Size  RATE  Hour  sct 
B3 7      rot   ata3  WD-WCC4M5ZDK1AE  "ata-WDC_WD20EFRX-68EUZN0_WD-WCC4M5ZDK1AE"   3          sdf     2TB   5400  49k   SET
B2 6      gelb  ata9  WD-WCC4M0XEZ7CH  "ata-WDC_WD20PURX-64P6ZY0_WD-WCC4M0XEZ7CH"   0          sdg     2TB   5400  27k   SET 
B1 5      rot   ata4  Z4Z1NB4W         "ata-ST2000VX004-1RU164_Z4Z1NB4W"            2          sda     2TB   7200  49k   UNSET 
A4 4      rot   ata8  WD-WCC4M3YLP4DT  "ata-WDC_WD20EFRX-68EUZN0_WD-WCC4M3YLP4DT"   spare      sdb     2TB   5400  3k    SET
A3 3      gelb  ata7  5544688GS        "ata-TOSHIBA_DT01ACA300_5544688GS"           4          sdd     3TB   7200  24k   UNSET
A2 2      rot   ata5  ZFL0QH84         "ata-ST2000DM008-2FR102_ZFL0QH84"            1          sde     2TB   7200  9k    NA
A1 1      rot   ata10 WD-WCC4M1ZJ8ZKZ  "ata-WDC_WD20EFRX-68EUZN0_WD-WCC4M1ZJ8ZKZ"   1                  2TB

Ausbauten

Bay       Kabel Port  Serial           /dev/disk/by-id/                             RAID-Rolle Device
A2 2      rot         Z4Z1NATB         "ata-ST2000VX004-1RU164_Z4Z1NATB"            0          sde
A4 4      rot         554468NGS        "ata-TOSHIBA_DT01ACA300_554468NGS"           4          sdc

A2 defekt

A4 defekt

A1 EOL

Details

/dev/md0:
          Version : 1.2
    Creation Time : Wed Jan 28 22:47:57 2015
       Raid Level : raid6
       Array Size : 5860147200 (5.46 TiB 6.00 TB)
    Used Dev Size : 1953382400 (1862.89 GiB 2000.26 GB)
     Raid Devices : 5
    Total Devices : 6
      Persistence : Superblock is persistent

    Intent Bitmap : Internal

      Update Time : Fri Nov 20 17:44:49 2020
            State : clean
   Active Devices : 5
  Working Devices : 6
   Failed Devices : 0
    Spare Devices : 1

           Layout : left-symmetric
       Chunk Size : 512K

Consistency Policy : bitmap

             Name : raib23:0  (local to host raib23)
             UUID : a9b9721a:7da8602e:313975c3:10fa337e
           Events : 38807

   Number   Major   Minor   RaidDevice State
      9       8       97        0      active sync   /dev/sdg1
      5       8       65        1      active sync   /dev/sde1
      4       8        1        2      active sync   /dev/sda1
      7       8       81        3      active sync   /dev/sdf1
     10       8       49        4      active sync   /dev/sdd1

      8       8       17        -      spare   /dev/sdb1

Logbuch

28.01.2015 Erstellt

erstellt am "Wed Jan 28 22:47:57 2015" auf raib23
4x 512 GByte im RAID 6 migriert auf
4x 2 TB im RAID 6 (-> 4 TB) migriert auf
5x 2 TB im RAID 6 (-> 6 TB)

26.07.2019 Ausfall von "sde"

[9159727.049398] md/raid:md127: Disk failure on sde1, disabling device.
                 md/raid:md127: Operation continuing on 4 devices.

AUTOMATISCH wurde "sdf" vom "spare" zum Verband hinzugefügt

[9159732.583652] md: recovery of RAID array md127
[9186393.380680] md: md127: recovery done.
[9186394.116871] RAID conf printout:
[9186394.116878]  --- level:6 rd:5 wd:5
[9186394.116881]  disk 0, o:1, dev:sdf1
[9186394.116884]  disk 1, o:1, dev:sdg1
[9186394.116886]  disk 2, o:1, dev:sdb1
[9186394.116888]  disk 3, o:1, dev:sda1
[9186394.116890]  disk 4, o:1, dev:sdc1

nunmehr bot sich folgendes Bild

   Number   Major   Minor   RaidDevice State
      9       8       81        0      active sync   /dev/sdf1
      6       8       97        1      active sync   /dev/sdg1
      4       8       17        2      active sync   /dev/sdb1
      7       8        1        3      active sync   /dev/sda1
      8       8       33        4      active sync   /dev/sdc1

      5       8       65        -      faulty   /dev/sde1
     10       8       49        -      spare   /dev/sdd1

nach einem remove der faulty Platte

   Number   Major   Minor   RaidDevice State
      9       8       81        0      active sync   /dev/sdf1
      6       8       97        1      active sync   /dev/sdg1
      4       8       17        2      active sync   /dev/sdb1
      7       8        1        3      active sync   /dev/sda1
      8       8       33        4      active sync   /dev/sdc1

     10       8       49        -      spare   /dev/sdd1

21.10.2019 Ausfall von sdc

Heute Abend waren die Shares plötzlich unendlich langsam
Teilweise waren sogar die Shares "offline"
Im Serverraum dann folgendes Bild: eine LED einer Platte war dauerhaft an, also wie unter Dauerfeuer
Das HDD LED des Mainboards war auch auf Dauerbetrieb ohne Flackern, also irgendwas schlimm im argen
Ich habe die "schuldige" Platte einfach rausgezogen,
Durch die Entnahme löste sich die Endlosschleife, das device wurde automatisch removed
danach wurde automatisch das Spare in den Verbund aufgenommen
Es erfolgte der Weiterbetrieb störungsfrei und das Recovery mit Hilfe des Spares
Ich habe gleich 2 neue 2 TB Platten bestellt

[Mon Oct 21 19:50:35 2019] ata5.00: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
[Mon Oct 21 19:50:35 2019] ata5.00: irq_stat 0x00400040, connection status changed
[Mon Oct 21 19:50:35 2019] ata5: SError: { HostInt PHYRdyChg 10B8B DevExch }
[Mon Oct 21 19:50:35 2019] ata5.00: failed command: READ DMA EXT
[Mon Oct 21 19:50:35 2019] ata5.00: cmd 25/00:08:f0:4f:fa/00:00:43:00:00/e0 tag 26 dma 4096 in
                                    res 50/00:00:ef:4f:fa/00:00:43:00:00/e3 Emask 0x50 (ATA bus error)
[Mon Oct 21 19:50:35 2019] ata5.00: status: { DRDY }
[Mon Oct 21 19:50:35 2019] ata5: hard resetting link
[Mon Oct 21 19:50:36 2019] ata5: SATA link down (SStatus 0 SControl 310)
[Mon Oct 21 19:50:41 2019] ata5: hard resetting link
[Mon Oct 21 19:50:41 2019] ata5: SATA link down (SStatus 0 SControl 310)
[Mon Oct 21 19:50:46 2019] ata5: hard resetting link
[Mon Oct 21 19:50:47 2019] ata5: SATA link down (SStatus 0 SControl 310)
[Mon Oct 21 19:50:47 2019] ata5.00: disabled
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] tag#26 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] tag#26 Sense Key : Illegal Request [current]
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] tag#26 Add. Sense: Unaligned write command
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] tag#26 CDB: Read(16) 88 00 00 00 00 00 43 fa 4f f0 00 00 00 08 00 00
[Mon Oct 21 19:50:47 2019] blk_update_request: I/O error, dev sdc, sector 1140477936
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: rejecting I/O to offline device
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] killing request
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: rejecting I/O to offline device
... 
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: rejecting I/O to offline device
[Mon Oct 21 19:50:47 2019] ata5: EH complete
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] FAILED Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] CDB: Read(16) 88 00 00 00 00 00 43 fa 4f f8 00 00 00 08 00 00
[Mon Oct 21 19:50:47 2019] blk_update_request: I/O error, dev sdc, sector 1140477944
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: rejecting I/O to offline device
[Mon Oct 21 19:50:47 2019] ata5.00: detaching (SCSI 4:0:0:0)
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] Stopping disk
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] Start/Stop Unit failed: Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
[Mon Oct 21 19:50:51 2019] md/raid:md127: Disk failure on sdc1, disabling device.
                           md/raid:md127: Operation continuing on 4 devices.
[Mon Oct 21 19:51:01 2019] RAID conf printout:
[Mon Oct 21 19:51:01 2019]  --- level:6 rd:5 wd:4
[Mon Oct 21 19:51:01 2019]  disk 0, o:1, dev:sde1
[Mon Oct 21 19:51:01 2019]  disk 1, o:1, dev:sdf1
[Mon Oct 21 19:51:01 2019]  disk 2, o:1, dev:sdb1
[Mon Oct 21 19:51:01 2019]  disk 3, o:1, dev:sda1
[Mon Oct 21 19:51:01 2019]  disk 4, o:0, dev:sdc1
[Mon Oct 21 19:51:01 2019] RAID conf printout:
[Mon Oct 21 19:51:01 2019]  --- level:6 rd:5 wd:4
[Mon Oct 21 19:51:01 2019]  disk 0, o:1, dev:sde1
[Mon Oct 21 19:51:01 2019]  disk 1, o:1, dev:sdf1
[Mon Oct 21 19:51:01 2019]  disk 2, o:1, dev:sdb1
[Mon Oct 21 19:51:01 2019]  disk 3, o:1, dev:sda1
[Mon Oct 21 19:51:01 2019] RAID conf printout:
[Mon Oct 21 19:51:01 2019]  --- level:6 rd:5 wd:4
[Mon Oct 21 19:51:01 2019]  disk 0, o:1, dev:sde1
[Mon Oct 21 19:51:01 2019]  disk 1, o:1, dev:sdf1
[Mon Oct 21 19:51:01 2019]  disk 2, o:1, dev:sdb1
[Mon Oct 21 19:51:01 2019]  disk 3, o:1, dev:sda1
[Mon Oct 21 19:51:01 2019]  disk 4, o:1, dev:sdd1
[Mon Oct 21 19:51:01 2019] md: unbind<sdc1>
[Mon Oct 21 19:51:01 2019] md: export_rdev(sdc1)
[Mon Oct 21 19:51:01 2019] md: recovery of RAID array md127
[Mon Oct 21 19:51:01 2019] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
[Mon Oct 21 19:51:01 2019] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
[Mon Oct 21 19:51:01 2019] md: using 128k window, over a total of 1953382400k.

Während, bzw. am Anfang des recovery war einmalig eine Störung auf ata7, das ist sdd

cat d2 | grep host | grep /ata

Rolle dev Störungsfrei Alter Port
 3     sda +  39925          /devices/pci0000:00/0000:00:17.0/ata3/host2/target2:0:0/2:0:0:0
 2     sdb +  39972          /devices/pci0000:00/0000:00:17.0/ata4/host3/target3:0:0/3:0:0:0
 4     sdd -  14875          /devices/pci0000:00/0000:00:01.1/0000:02:00.0/ata7/host6/target6:0:0/6:0:0:0
 0     sde +  18343          /devices/pci0000:00/0000:00:01.1/0000:02:00.0/ata9/host8/target8:0:0/8:0:0:0
 1     sdf +  39931          /devices/pci0000:00/0000:00:01.1/0000:02:00.0/ata10/host9/target9:0:0/9:0:0:0

Nachts war dann das recovery durch

[Tue Oct 22 03:57:48 2019] md: md127: recovery done.
[Tue Oct 22 03:57:48 2019] RAID conf printout:
[Tue Oct 22 03:57:48 2019]  --- level:6 rd:5 wd:5
[Tue Oct 22 03:57:48 2019]  disk 0, o:1, dev:sde1
[Tue Oct 22 03:57:48 2019]  disk 1, o:1, dev:sdf1
[Tue Oct 22 03:57:48 2019]  disk 2, o:1, dev:sdb1
[Tue Oct 22 03:57:48 2019]  disk 3, o:1, dev:sda1
[Tue Oct 22 03:57:48 2019]  disk 4, o:1, dev:sdd1

Dies ausgefallene Platte habe ich an ein anderes System gehängt
Obwohl diese Platte aus der boot-Reihenfolge komplett raus war hat das BIOS sich geweigert die Platte einzutragen
Es muss ein Massiver Ausfall der Plattenelektronik gewesen sein

24.10.2019 Hinzufügen von 2 spares

Es wurden 2 spare-Platten hinzugefügt
- Einbau in A2 WD Red S/N "WCC4M3YLP4DT" als "sde"
- Einbau in A4 Seagate BarraCuda S/N "ZFL0QH84" als "sdc"

18.09.2020 Umzug

von openSuse 42.2 auf 15.2
von "server" auf "raib23"

14.11.2020

System steht, geht nicht mehr an
an einem frischen Netzteil geht er wieder an
ECC Fehler im Protokoll, x86 memtest ohne Befund
einige Tage nur mit einem Memory-Modul laufen gelassen (8 GB)
was ich später erst bemerkte: 2 Cores des XEON sind weg!!!!
WD-WCC4M1ZJ8ZKZ geht in Rente, 50k Betriebsstunden

17.11.2020

Boot von nvme ist nicht möglich, er ekennt die UEFI Bootmöglichkeit am PCIe Slot nicht
ev. Umstellung auf MZ-76P256B
die eingebaute 850 pro hat 50.000 Betriebsstunden, sollte bald getauscht werden

20.11.2020

Neubeschaffung: Crucial BX500 240GB
Neubeschaffung: Xeon E3-1271v3

RAID6-2017

Inhaltsverzeichnis

Festplatten-Positionen

Ausbauten

A2 defekt

A4 defekt

A1 EOL

Details

Logbuch

28.01.2015 Erstellt

26.07.2019 Ausfall von "sde"

21.10.2019 Ausfall von sdc

24.10.2019 Hinzufügen von 2 spares

18.09.2020 Umzug

14.11.2020

17.11.2020

20.11.2020

Navigationsmenü