RAID6-2017: Unterschied zwischen den Versionen

Aus OrgaMon Wiki
Zur Navigation springen Zur Suche springen
Keine Bearbeitungszusammenfassung
 
(5 dazwischenliegende Versionen von 2 Benutzern werden nicht angezeigt)
Zeile 1: Zeile 1:
* host "raib23", ehemals "server"
* host raib2, ehemals "raib23", "server"
* Supermicro X10SLH-F, Socket 1150
* Supermicro X10SLH-F, Socket 1150
** BIOS 3.3a, BMC 03.90
** BIOS 3.3a, BMC 03.90
Zeile 5: Zeile 5:
* XEON 1231v3 4x 3.40GHz, 8 Threads (defekt, nur noch 2 Cores)
* XEON 1231v3 4x 3.40GHz, 8 Threads (defekt, nur noch 2 Cores)
** 54406.95 BogoMIPS
** 54406.95 BogoMIPS
* Raid-6 aus 5+1 2TB Partitionen
* Raid-6 aus 5+1 2TB Partitionen (1953382400 Bytes)
* Partition ist 2000397868544 Bytes
* Dateisystem: ext4 (ACHTUNG: ohne 64 Bit!)
* Dateisystem: ext4 (ACHTUNG: ohne 64 Bit!)
** Maximaler Vollausbau (da 32 Bit-ext4): 7x 3 TB im RAID 6 (-> 15 TB)
** Maximaler Vollausbau (da 32 Bit-ext4): 7x 3 TB im RAID 6 (-> 15 TB)
== Festplatten-Positionen ==
* Plattenpositionen
{|
|[[Datei:Raib23-2020.jpg|250px]]
|B3 [[Datei:B3.jpg|65px]]<br>_______________
<br>B2 [[Datei:B2.jpg|65px]]<br>_______________
<br>B1 [[Datei:B1.jpg|65px]]<br>_______________
<br>A4 [[Datei:20191024 095353 A4.jpg|65px]]<br>_______________
<br>A3 [[Datei:A3.jpg|65px]]<br>_______________
<br>A2 [[Datei:20191024 095315 A2.jpg|65px]]<br>_______________
<br>A1 leer<br>_______________<br>
|}
Bay      Kabel Port  Serial          /dev/disk/by-id/                            RAID-Rolle Device  Size  RATE  Hour  sct
6        rot  ata3  WD-WCC4M5ZDK1AE  "ata-WDC_WD20EFRX-68EUZN0_WD-WCC4M5ZDK1AE"  3          sdf    2TB  5400  49k  SET
5        gelb  ata7  5544688GS        "ata-TOSHIBA_DT01ACA300_5544688GS"          4          sdd    3TB  7200  24k  UNSET
4        rot  ata5  ZFL0QH84        "ata-ST2000DM008-2FR102_ZFL0QH84"            1          sde    2TB  7200  9k    NA
3        rot  ata4  Z4Z1NB4W        "ata-ST2000VX004-1RU164_Z4Z1NB4W"            2          sda    2TB  7200  49k  UNSET
2        gelb  ata9  WD-WCC4M0XEZ7CH  "ata-WDC_WD20PURX-64P6ZY0_WD-WCC4M0XEZ7CH"  0          sdg    2TB  5400  27k  SET
1        rot  ata8  WD-WCC4M3YLP4DT  "ata-WDC_WD20EFRX-68EUZN0_WD-WCC4M3YLP4DT"  spare      sdb    2TB  5400  3k    SET
== Ausbauten ==
Bay      Kabel Port  Serial          /dev/disk/by-id/                            RAID-Rolle Device
A2 2      rot        Z4Z1NATB        "ata-ST2000VX004-1RU164_Z4Z1NATB"            0          sde
A4 4      rot        554468NGS        "ata-TOSHIBA_DT01ACA300_554468NGS"          4          sdc
{|
|[[Datei:A2.jpg|65px]]<br><h4>A2 defekt</h4><br>
|[[Datei:20191022 145906.jpg|65px]]<br><h4>A4 defekt</h4><br>
|[[Datei:A1.jpg|65px]]<br><h4>A1 EOL</h4><br>
|-
|}
== Details ==
/dev/md0:
          Version : 1.2
    Creation Time : Wed Jan 28 22:47:57 2015
        Raid Level : raid6
        Array Size : 5860147200 (5.46 TiB 6.00 TB)
    Used Dev Size : 1953382400 (1862.89 GiB 2000.26 GB)
      Raid Devices : 5
    Total Devices : 6
      Persistence : Superblock is persistent
    Intent Bitmap : Internal
      Update Time : Fri Nov 20 17:44:49 2020
            State : clean
    Active Devices : 5
  Working Devices : 6
    Failed Devices : 0
    Spare Devices : 1
            Layout : left-symmetric
        Chunk Size : 512K
Consistency Policy : bitmap
              Name : raib23:0  (local to host raib23)
              UUID : a9b9721a:7da8602e:313975c3:10fa337e
            Events : 38807
    Number  Major  Minor  RaidDevice State
      9      8      97        0      active sync  /dev/sdg1
      5      8      65        1      active sync  /dev/sde1
      4      8        1        2      active sync  /dev/sda1
      7      8      81        3      active sync  /dev/sdf1
      10      8      49        4      active sync  /dev/sdd1
      8      8      17        -      spare  /dev/sdb1
== Logbuch ==
=== 28.01.2015 Erstellt ===
* erstellt am "Wed Jan 28 22:47:57 2015" auf raib23
* 4x 512 GByte im RAID 6 migriert auf
* 4x 2 TB im RAID 6 (-> 4 TB) migriert auf
* 5x 2 TB im RAID 6 (-> 6 TB)
=== 26.07.2019 Ausfall von "sde" ===
[9159727.049398] md/raid:md127: Disk failure on sde1, disabling device.
                  md/raid:md127: Operation continuing on 4 devices.
* AUTOMATISCH wurde "sdf" vom "spare" zum Verband hinzugefügt
[9159732.583652] md: recovery of RAID array md127
[9186393.380680] md: md127: recovery done.
[9186394.116871] RAID conf printout:
[9186394.116878]  --- level:6 rd:5 wd:5
[9186394.116881]  disk 0, o:1, dev:sdf1
[9186394.116884]  disk 1, o:1, dev:sdg1
[9186394.116886]  disk 2, o:1, dev:sdb1
[9186394.116888]  disk 3, o:1, dev:sda1
[9186394.116890]  disk 4, o:1, dev:sdc1
* nunmehr bot sich folgendes Bild
    Number  Major  Minor  RaidDevice State
      9      8      81        0      active sync  /dev/sdf1
      6      8      97        1      active sync  /dev/sdg1
      4      8      17        2      active sync  /dev/sdb1
      7      8        1        3      active sync  /dev/sda1
      8      8      33        4      active sync  /dev/sdc1
      5      8      65        -      faulty  /dev/sde1
      10      8      49        -      spare  /dev/sdd1
* nach einem remove der faulty Platte
    Number  Major  Minor  RaidDevice State
      9      8      81        0      active sync  /dev/sdf1
      6      8      97        1      active sync  /dev/sdg1
      4      8      17        2      active sync  /dev/sdb1
      7      8        1        3      active sync  /dev/sda1
      8      8      33        4      active sync  /dev/sdc1
      10      8      49        -      spare  /dev/sdd1
=== 21.10.2019 Ausfall von sdc ===
* Heute Abend waren die Shares plötzlich unendlich langsam
* Teilweise waren sogar die Shares "offline"
* Im Serverraum dann folgendes Bild: eine LED einer Platte war dauerhaft an, also wie unter Dauerfeuer
* Das HDD LED des Mainboards war auch auf Dauerbetrieb ohne Flackern, also irgendwas schlimm im argen
* Ich habe die "schuldige" Platte einfach rausgezogen,
* Durch die Entnahme löste sich die Endlosschleife, das device wurde automatisch removed
* danach wurde automatisch das Spare in den Verbund aufgenommen
* Es erfolgte der Weiterbetrieb störungsfrei und das Recovery mit Hilfe des Spares
* Ich habe gleich 2 neue 2 TB Platten bestellt
[Mon Oct 21 19:50:35 2019] ata5.00: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
[Mon Oct 21 19:50:35 2019] ata5.00: irq_stat 0x00400040, connection status changed
[Mon Oct 21 19:50:35 2019] ata5: SError: { HostInt PHYRdyChg 10B8B DevExch }
[Mon Oct 21 19:50:35 2019] ata5.00: failed command: READ DMA EXT
[Mon Oct 21 19:50:35 2019] ata5.00: cmd 25/00:08:f0:4f:fa/00:00:43:00:00/e0 tag 26 dma 4096 in
                                    res 50/00:00:ef:4f:fa/00:00:43:00:00/e3 Emask 0x50 (ATA bus error)
[Mon Oct 21 19:50:35 2019] ata5.00: status: { DRDY }
[Mon Oct 21 19:50:35 2019] ata5: hard resetting link
[Mon Oct 21 19:50:36 2019] ata5: SATA link down (SStatus 0 SControl 310)
[Mon Oct 21 19:50:41 2019] ata5: hard resetting link
[Mon Oct 21 19:50:41 2019] ata5: SATA link down (SStatus 0 SControl 310)
[Mon Oct 21 19:50:46 2019] ata5: hard resetting link
[Mon Oct 21 19:50:47 2019] ata5: SATA link down (SStatus 0 SControl 310)
[Mon Oct 21 19:50:47 2019] ata5.00: disabled
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] tag#26 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] tag#26 Sense Key : Illegal Request [current]
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] tag#26 Add. Sense: Unaligned write command
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] tag#26 CDB: Read(16) 88 00 00 00 00 00 43 fa 4f f0 00 00 00 08 00 00
[Mon Oct 21 19:50:47 2019] blk_update_request: I/O error, dev sdc, sector 1140477936
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: rejecting I/O to offline device
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] killing request
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: rejecting I/O to offline device
...
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: rejecting I/O to offline device
[Mon Oct 21 19:50:47 2019] ata5: EH complete
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] FAILED Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] CDB: Read(16) 88 00 00 00 00 00 43 fa 4f f8 00 00 00 08 00 00
[Mon Oct 21 19:50:47 2019] blk_update_request: I/O error, dev sdc, sector 1140477944
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: rejecting I/O to offline device
[Mon Oct 21 19:50:47 2019] ata5.00: detaching (SCSI 4:0:0:0)
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] Stopping disk
[Mon Oct 21 19:50:47 2019] sd 4:0:0:0: [sdc] Start/Stop Unit failed: Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
[Mon Oct 21 19:50:51 2019] md/raid:md127: Disk failure on sdc1, disabling device.
                            md/raid:md127: Operation continuing on 4 devices.
[Mon Oct 21 19:51:01 2019] RAID conf printout:
[Mon Oct 21 19:51:01 2019]  --- level:6 rd:5 wd:4
[Mon Oct 21 19:51:01 2019]  disk 0, o:1, dev:sde1
[Mon Oct 21 19:51:01 2019]  disk 1, o:1, dev:sdf1
[Mon Oct 21 19:51:01 2019]  disk 2, o:1, dev:sdb1
[Mon Oct 21 19:51:01 2019]  disk 3, o:1, dev:sda1
[Mon Oct 21 19:51:01 2019]  disk 4, o:0, dev:sdc1
[Mon Oct 21 19:51:01 2019] RAID conf printout:
[Mon Oct 21 19:51:01 2019]  --- level:6 rd:5 wd:4
[Mon Oct 21 19:51:01 2019]  disk 0, o:1, dev:sde1
[Mon Oct 21 19:51:01 2019]  disk 1, o:1, dev:sdf1
[Mon Oct 21 19:51:01 2019]  disk 2, o:1, dev:sdb1
[Mon Oct 21 19:51:01 2019]  disk 3, o:1, dev:sda1
[Mon Oct 21 19:51:01 2019] RAID conf printout:
[Mon Oct 21 19:51:01 2019]  --- level:6 rd:5 wd:4
[Mon Oct 21 19:51:01 2019]  disk 0, o:1, dev:sde1
[Mon Oct 21 19:51:01 2019]  disk 1, o:1, dev:sdf1
[Mon Oct 21 19:51:01 2019]  disk 2, o:1, dev:sdb1
[Mon Oct 21 19:51:01 2019]  disk 3, o:1, dev:sda1
[Mon Oct 21 19:51:01 2019]  disk 4, o:1, dev:sdd1
[Mon Oct 21 19:51:01 2019] md: unbind<sdc1>
[Mon Oct 21 19:51:01 2019] md: export_rdev(sdc1)
[Mon Oct 21 19:51:01 2019] md: recovery of RAID array md127
[Mon Oct 21 19:51:01 2019] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
[Mon Oct 21 19:51:01 2019] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
[Mon Oct 21 19:51:01 2019] md: using 128k window, over a total of 1953382400k.
* Während, bzw. am Anfang des recovery war einmalig eine Störung auf ata7, das ist sdd
cat d2 | grep host | grep /ata
<u><b>Rolle dev Störungsfrei Alter Port</b></u>
  3    sda +  39925          /devices/pci0000:00/0000:00:17.0/ata3/host2/target2:0:0/2:0:0:0
  2    sdb +  39972          /devices/pci0000:00/0000:00:17.0/ata4/host3/target3:0:0/3:0:0:0
  4    sdd -  14875          /devices/pci0000:00/0000:00:01.1/0000:02:00.0/ata7/host6/target6:0:0/6:0:0:0
  0    sde +  18343          /devices/pci0000:00/0000:00:01.1/0000:02:00.0/ata9/host8/target8:0:0/8:0:0:0
  1    sdf +  39931          /devices/pci0000:00/0000:00:01.1/0000:02:00.0/ata10/host9/target9:0:0/9:0:0:0
* Nachts war dann das recovery durch
[Tue Oct 22 03:57:48 2019] md: md127: recovery done.
[Tue Oct 22 03:57:48 2019] RAID conf printout:
[Tue Oct 22 03:57:48 2019]  --- level:6 rd:5 wd:5
[Tue Oct 22 03:57:48 2019]  disk 0, o:1, dev:sde1
[Tue Oct 22 03:57:48 2019]  disk 1, o:1, dev:sdf1
[Tue Oct 22 03:57:48 2019]  disk 2, o:1, dev:sdb1
[Tue Oct 22 03:57:48 2019]  disk 3, o:1, dev:sda1
[Tue Oct 22 03:57:48 2019]  disk 4, o:1, dev:sdd1
* Dies ausgefallene Platte habe ich an ein anderes System gehängt
* Obwohl diese Platte aus der boot-Reihenfolge komplett raus war hat das BIOS sich geweigert die Platte einzutragen
* Es muss ein Massiver Ausfall der Plattenelektronik gewesen sein
=== 24.10.2019 Hinzufügen von 2 spares ===
* Es wurden 2 spare-Platten hinzugefügt
** Einbau in A2 WD Red S/N "WCC4M3YLP4DT" als "sde"
** Einbau in A4 Seagate BarraCuda S/N "ZFL0QH84" als "sdc"
=== 18.09.2020 Umzug ===
* von openSuse 42.2 auf 15.2
* von "server" auf "raib23"
=== 14.11.2020 XEON defekt ===
* System steht, geht nicht mehr an
* an einem frischen Netzteil geht er wieder an
* ECC Fehler im Protokoll, x86 memtest ohne Befund
* einige Tage nur mit einem Memory-Modul laufen gelassen (8 GB)
* was ich später erst bemerkte: 2 Cores des XEON sind weg!!!!
* WD-WCC4M1ZJ8ZKZ geht in Rente, 50k Betriebsstunden
=== 17.11.2020 ===
* Boot von nvme ist nicht möglich, er ekennt die UEFI Bootmöglichkeit am PCIe Slot nicht
* ev. Umstellung auf MZ-76P256B
* die eingebaute 850 pro hat 50.000 Betriebsstunden, sollte bald getauscht werden
=== 20.11.2020 ===
* Neubeschaffung: Crucial BX500 240GB
* Neubeschaffung: Xeon E3-1271v3

Aktuelle Version vom 10. März 2023, 17:40 Uhr

  • host raib2, ehemals "raib23", "server"
  • Supermicro X10SLH-F, Socket 1150
    • BIOS 3.3a, BMC 03.90
  • 32 GB ECC RAM
  • XEON 1231v3 4x 3.40GHz, 8 Threads (defekt, nur noch 2 Cores)
    • 54406.95 BogoMIPS
  • Raid-6 aus 5+1 2TB Partitionen (1953382400 Bytes)
  • Partition ist 2000397868544 Bytes
  • Dateisystem: ext4 (ACHTUNG: ohne 64 Bit!)
    • Maximaler Vollausbau (da 32 Bit-ext4): 7x 3 TB im RAID 6 (-> 15 TB)