RAID6-2016

Server "raib2" im RZ Ubstadt
Raid-6 aus 8x 2 TB Platten, dazu habe ich 9x Festplatten gekauft:
- 2 TB Kapazität - 3,5" Formfaktor - SATA 6Gb/s - 7200 U/min
- 3 verschiedene Hersteller wegen der vergrößerten Varianz des Zeitpunktes des Ausfall

Serien Nummern

WD Purple
- S/N: WCC4M0SC7C9R
- ~~S/N: WCC4M0SC7AR1~~ +'12.2017
- S/N: WCC4M0XEZ7CH
SEAGATE BARRACUDA
- S/N: Z4Z2W81E
- S/N: Z4Z32SNR
- S/N: Z4Z2XNWC
Toshiba DT01ACA
- S/N: X5RAD3XGSTZ5
- S/N: X5RAD2GGSTZ5
- ~~S/N: Y5GHNDBTSTZ5~~ +'03.2018

Das sind 18 TB, das kostet zusammen 684.93 € (Stand Feb 2016).
8 der Platten verwende ich im RAID, eine Platte lege ich daneben für den Fall der Fälle
- im Lager: Toshiba DT01ACA S/N: X5RAD3XGSTZ5

Block B (oben)

Block A (unten)

Die Tabelle beschreibt die Anordnung von unten nach oben!

HDD - Cage

Eigenschaften/Bay	A1	A2	A3	A4	X1	X2	S1	B1	B2	B3	B4	X3
laufende Nummer	1	2	3	4	a	b	c	5	6	7	8	sas
SATA-Kabel	B-P4	SAS-P2	B-P2	B-P1	A-P1	A-P2	SSD	rot	rot	rot	rot	SAS-P1
Modell	DT01ACA2	WD20PURX-64P	ST2000DM001-1ER1	DT01ACA2	WD20EFRX-68E	HDWD120	SSD 850	ST2000DM001-1ER1	DT01ACA2	WD20PURX-64P	ST2000DM001-1ER1	HUS724020ALS640
Serial	X5RAD2GGS	WD-WCC4M0SC7AR1	Z4Z32SNR	X5RAD3XGS	WD-WCC4M4KXAVNT	X7T0V1LAS	S1SMNSAG110166X	Z4Z2XNWC	Y5GHNDBTS	WD-WCC4M0SC7C9R	Z4Z2W81E	P6K4TJSV
/dev/disk/by-id	scsi-SATA_TOSHIBA_DT01ACA2_X5RAD2GGS	scsi-SATA_WDC_WD20PURX-64P_WD-WCC4M0SC7AR1	scsi-SATA_ST2000DM001-1ER1_Z4Z32SNR	scsi-SATA_TOSHIBA_DT01ACA2_X5RAD3XGS	scsi-SATA_WDC_WD20EFRX-68E_WD-WCC4M4KXAVNT	scsi-SATA_TOSHIBA_HDWD120_X7T0V1LAS	ata-Samsung_SSD_850_PRO_128GB_S1SMNSAG110166X	ata-ST2000DM001-1ER164_Z4Z2XNWC	ata-TOSHIBA_DT01ACA200_Y5GHNDBTS	ata-WDC_WD20PURX-64P6ZY0_WD-WCC4M0SC7C9R	ata-ST2000DM001-1ER164_Z4Z2W81E	scsi-SHGST_HUS724020ALS640_P6K4TJSV
Devicename	sdk	sde	sdd	sdc	sda	sdb	sdf	sdj	sdi	sdg	sdh	sdk
RAID-Device	7	REMOVED	5	4	6	SPARE	SYSTEM	3	2	0	1	SPARE

Setup Aufbau

Produktiv

Störung vom 28.12.2017

[243680.637402] aacraid: Host adapter abort request (0,2,3,0)
[243691.068772] sd 0:2:3:0: [sdi] tag#1 FAILED Result: hostbyte=DID_ABORT driverbyte=DRIVER_OK
[243691.068778] sd 0:2:3:0: [sdi] tag#1 CDB: Synchronize Cache(10) 35 00 00 00 00 00 00 00 00 00
[243691.068786] blk_update_request: I/O error, dev sdi, sector 2064
[243691.068788] md: super_written gets error=-5
[243691.068793] md/raid:md127: Disk failure on sdi1, disabling device.
               md/raid:md127: Operation continuing on 7 devices.
[243801.115324] aacraid: Host adapter abort request timed out
[243801.115334] aacraid: Host adapter abort request (0,2,3,0)
[243801.115384] aacraid: Host adapter reset request. SCSI hang ?
[243921.593220] aacraid: Host adapter reset request timed out
[243921.593230] sd 0:2:3:0: Device offlined - not ready after error recovery
[243921.593233] sd 0:2:3:0: Device offlined - not ready after error recovery
[243921.593248] sd 0:2:3:0: [sdi] tag#8 FAILED Result: hostbyte=DID_ABORT driverbyte=DRIVER_OK
[243921.593252] sd 0:2:3:0: [sdi] tag#8 CDB: Read(10) 28 00 04 a0 c4 00 00 02 00 00
[243921.593256] blk_update_request: I/O error, dev sdi, sector 77644800
[243921.593289] sd 0:2:3:0: [sdi] tag#11 FAILED Result: hostbyte=DID_ABORT driverbyte=DRIVER_OK
[243921.593292] sd 0:2:3:0: [sdi] tag#11 CDB: Read(10) 28 00 04 a0 c6 00 00 02 00 00
[243921.593294] blk_update_request: I/O error, dev sdi, sector 77645312
[416403.254386] hrtimer: interrupt took 29227 ns
[853039.443372] sd 0:2:3:0: rejecting I/O to offline device
[853039.443402] sd 0:2:3:0: rejecting I/O to offline device
[853039.443411] sd 0:2:3:0: rejecting I/O to offline device
[853039.443418] sd 0:2:3:0: rejecting I/O to offline device
[853039.443426] sd 0:2:3:0: rejecting I/O to offline device
[853039.443433] sd 0:2:3:0: rejecting I/O to offline device
[853039.443440] sd 0:2:3:0: rejecting I/O to offline device
[853039.443448] sd 0:2:3:0: rejecting I/O to offline device
[853039.443455] sd 0:2:3:0: rejecting I/O to offline device
[853039.443633] sd 0:2:3:0: rejecting I/O to offline device
[853039.443646] sd 0:2:3:0: rejecting I/O to offline device
[853039.443653] sd 0:2:3:0: rejecting I/O to offline device
[853039.443660] sd 0:2:3:0: rejecting I/O to offline device
[853039.443667] sd 0:2:3:0: rejecting I/O to offline device
[853039.443674] sd 0:2:3:0: rejecting I/O to offline device
[853039.443681] sd 0:2:3:0: rejecting I/O to offline device
[853039.443687] sd 0:2:3:0: rejecting I/O to offline device

Ich wollte die serial ID der Platte rausfinden, ähm, jedoch hwinfo --disk lieferte bei der Platte nur noch:

28: IDE 23.0: 10600 Disk

 [Created at block.245]
 Unique ID: ipPt.uEhVIzZ7wdA
 Parent ID: B35A.VPIkJrtnW73
 SysFS ID: /class/block/sdi
 SysFS BusID: 0:2:3:0
 SysFS Device Link: /devices/pci0000:00/0000:00:01.1/0000:02:00.0/host0/target0:2:3/0:2:3:0
 Hardware Class: disk
 Model: "WDC WD20PURX-64P"
 Vendor: "WDC"
 Device: "WD20PURX-64P"
 Revision: "0A80"
 Driver: "aacraid", "sd"
 Driver Modules: "aacraid", "sd_mod"
 Device File: /dev/sdi
 Device Files: /dev/sdi, /dev/disk/by-id/scsi-330000d170092e908, /dev/disk/by-id/scsi-SATA_WDC_WD20PURX-64P_WD-WCC4M0XEZ7CH, /dev/disk/by-id/wwn-0x30000d170092e908, /dev/disk/by-path/pci-0000:02:00.0-scsi-0:2:3:0
 Device Number: block 8:128-8:143
 Drive status: no medium
 Config Status: cfg=new, avail=yes, need=no, active=unknown
 Attached to: #15 (Serial Attached SCSI controller)

es hätte aber angezeigt werden sollen:

28: IDE 23.0: 10600 Disk

 [Created at block.245]
 Unique ID: ipPt.dZvPpEVVaL9
 Parent ID: B35A.VPIkJrtnW73
 SysFS ID: /class/block/sdi
 SysFS BusID: 0:2:3:0
 SysFS Device Link: /devices/pci0000:00/0000:00:01.1/0000:02:00.0/host0/target0:2:3/0:2:3:0
 Hardware Class: disk
 Model: "WDC WD20PURX-64P"
 Vendor: "WDC"
 Device: "WD20PURX-64P"
 Revision: "0A80"
 Serial ID: "WD-WCC4M0XEZ7CH"
 Driver: "aacraid", "sd"
 Driver Modules: "aacraid", "sd_mod"
 Device File: /dev/sdi
 Device Files: /dev/sdi, /dev/disk/by-id/scsi-330000d170092e908, /dev/disk/by-id/scsi-SATA_WDC_WD20PURX-64P_WD-WCC4M0XEZ7CH, /dev/disk/by-id/wwn-0x30000d170092e908, /dev/disk/by-path/pci-0000:02:00.0-scsi-0:2:3:0
 Device Number: block 8:128-8:143
 Geometry (Logical): CHS 243201/255/63
 Size: 3907029168 sectors a 512 bytes
 Capacity: 1863 GB (2000398934016 bytes)
 Config Status: cfg=new, avail=yes, need=no, active=unknown
 Attached to: #15 (Serial Attached SCSI controller)

ich suche also die Platte "WD-WCC4M0XEZ7CH"

raus und ersetzt durch:

28: IDE 23.0: 10600 Disk

 [Created at block.245]
 Unique ID: ipPt.IyRYgsTsxUD
 Parent ID: B35A.VPIkJrtnW73
 SysFS ID: /class/block/sdi
 SysFS BusID: 0:2:3:0
 SysFS Device Link: /devices/pci0000:00/0000:00:01.1/0000:02:00.0/host0/target0:2:3/0:2:3:0
 Hardware Class: disk
 Model: "TOSHIBA DT01ACA2"
 Vendor: "TOSHIBA"
 Device: "DT01ACA2"
 Revision: "ABB0"
 Serial ID: "X5RAD3XGS"
 Driver: "aacraid", "sd"
 Driver Modules: "aacraid", "sd_mod"
 Device File: /dev/sdi
 Device Files: /dev/sdi, /dev/disk/by-id/scsi-330000d170092e908, /dev/disk/by-id/scsi-SATA_TOSHIBA_DT01ACA2_X5RAD3XGS, /dev/disk/by-id/wwn-0x30000d170092e908, /dev/disk/by-path/pci-0000:02:00.0-scsi-0:2:3:0
 Device Number: block 8:128-8:143
 Geometry (Logical): CHS 243201/255/63
 Size: 3907029168 sectors a 512 bytes
 Capacity: 1863 GB (2000398934016 bytes)
 Config Status: cfg=new, avail=yes, need=no, active=unknown
 Attached to: #15 (Serial Attached SCSI controller)

ich schaue mal nach wie der Status des Array ist:

raib2:~ # mdadm --detail /dev/md127 /dev/md127:

          Version : 1.2
    Creation Time : Fri Oct 28 11:41:55 2016
       Raid Level : raid6
       Array Size : 11720294400 (11177.34 GiB 12001.58 GB)
    Used Dev Size : 1953382400 (1862.89 GiB 2000.26 GB)
     Raid Devices : 8
    Total Devices : 7
      Persistence : Superblock is persistent

    Intent Bitmap : Internal

      Update Time : Thu Dec 28 14:39:27 2017
            State : clean, degraded
   Active Devices : 7
  Working Devices : 7
   Failed Devices : 0
    Spare Devices : 0

           Layout : left-symmetric
       Chunk Size : 512K

Consistency Policy : bitmap

             Name : raib2:0  (local to host raib2)
             UUID : 500aa0db:5aca5187:5617c3ff:dc97c2c4
           Events : 10316

   Number   Major   Minor   RaidDevice State
      0       8       17        0      active sync   /dev/sdb1
      1       8       33        1      active sync   /dev/sdc1
      2       8       49        2      active sync   /dev/sdd1
      3       8       65        3      active sync   /dev/sde1
      -       0        0        4      removed
      5       8      113        5      active sync   /dev/sdh1
      6       8       97        6      active sync   /dev/sdg1
      7       8       81        7      active sync   /dev/sdf1

also das defekte device ist nun 100% "removed!"
dann reicht ein hinzufügen eines Spare,

 mdadm /dev/md127 --add-spare /dev/sdi1

nach dem rebuild - der durch obigen Befehl automatisch startet, da ja ein device "fehlt", wird es automatisch als vollwertiges "U"-Device hinzugefügt!

Störung vom 06.03.2018

Feb 10 09:15:25 raib2 kernel: ata5.00: exception Emask 0x0 SAct 0x38 SErr 0x0 action 0x0
Feb 10 09:15:25 raib2 kernel: ata5.00: irq_stat 0x40000008
Feb 10 09:15:25 raib2 kernel: ata5.00: failed command: READ FPDMA QUEUED
Feb 10 09:15:25 raib2 kernel: ata5.00: cmd 60/f0:20:00:d2:11/01:00:00:00:00/40 tag 4 ncq dma 253952 in
                                       res 51/40:80:70:d2:11/00:01:00:00:00/40 Emask 0x409 (media error) <F>
Feb 10 09:15:25 raib2 kernel: ata5.00: status: { DRDY ERR }
Feb 10 09:15:25 raib2 kernel: ata5.00: error: { UNC }
Feb 10 09:15:25 raib2 kernel: ata5.00: configured for UDMA/133
Feb 10 09:15:25 raib2 kernel: sd 5:0:0:0: [sdd] tag#4 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Feb 10 09:15:25 raib2 kernel: sd 5:0:0:0: [sdd] tag#4 Sense Key : Medium Error [current]
Feb 10 09:15:25 raib2 kernel: sd 5:0:0:0: [sdd] tag#4 Add. Sense: Unrecovered read error - auto reallocate failed
Feb 10 09:15:25 raib2 kernel: sd 5:0:0:0: [sdd] tag#4 CDB: Read(10) 28 00 00 11 d2 00 00 01 f0 00
Feb 10 09:15:25 raib2 kernel: blk_update_request: I/O error, dev sdd, sector 1167984
Feb 10 09:15:25 raib2 kernel: ata5: EH complete
Feb 10 09:15:29 raib2 kernel: ata5.00: exception Emask 0x0 SAct 0x7fffffff SErr 0x0 action 0x0
Feb 10 09:15:29 raib2 kernel: ata5.00: irq_stat 0x40000008
Feb 10 09:15:29 raib2 kernel: ata5.00: failed command: READ FPDMA QUEUED
Feb 10 09:15:29 raib2 kernel: ata5.00: cmd 60/08:08:70:d2:11/00:00:00:00:00/40 tag 1 ncq dma 4096 in
                                       res 51/40:08:70:d2:11/00:00:00:00:00/40 Emask 0x409 (media error) <F>
Feb 10 09:15:29 raib2 kernel: ata5.00: status: { DRDY ERR }
Feb 10 09:15:29 raib2 kernel: ata5.00: error: { UNC }
Feb 10 09:15:29 raib2 kernel: ata5.00: configured for UDMA/133
Feb 10 09:15:29 raib2 kernel: sd 5:0:0:0: [sdd] tag#1 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Feb 10 09:15:29 raib2 kernel: sd 5:0:0:0: [sdd] tag#1 Sense Key : Medium Error [current]
Feb 10 09:15:29 raib2 kernel: sd 5:0:0:0: [sdd] tag#1 Add. Sense: Unrecovered read error - auto reallocate failed
Feb 10 09:15:29 raib2 kernel: sd 5:0:0:0: [sdd] tag#1 CDB: Read(10) 28 00 00 11 d2 70 00 00 08 00
Feb 10 09:15:29 raib2 kernel: blk_update_request: I/O error, dev sdd, sector 1167984
Feb 10 09:15:29 raib2 kernel: ata5: EH complete
Feb 10 09:15:45 raib2 kernel: md/raid:md127: read error corrected (8 sectors at 1165936 on sdd1)

smartd hat den Read error auch mitbekommen

Feb 10 09:42:03 raib2 smartd[2004]: Device: /dev/sdd [SAT], 8 Currently unreadable (pending) sectors
Feb 10 09:42:03 raib2 smartd[2004]: Device: /dev/sdd [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 253 to 200
Feb 10 09:42:04 raib2 smartd[2004]: Device: /dev/sdd [SAT], ATA error count increased from 0 to 2

es ist die disk "ata-TOSHIBA_DT01ACA200_Y5GHNDBTS"
mdadm hatte niemals gesagt, dass eben eine Platte rausgeschmissen wurde
Bei einem Neustart hiess es dann einfach

Feb 10 13:00:02 raib2 mdadm[3784]: NewArray event detected on md device /dev/md127
Feb 10 13:00:02 raib2 mdadm[3784]: DegradedArray event detected on md device /dev/md127

meine Lösung was es 2 Spares in das Array zu bringen:

2018: 2 Platten für zusammen 130 Euro eingebaut:
- scsi-SATA_WDC_WD20EFRX-68E_WD-WCC4M4KXAVNT
- scsi-SATA_TOSHIBA_HDWD120_X7T0V1LAS

mdadm /dev/md127 --add-spare /dev/sdf1
mdadm /dev/md127 --add-spare /dev/sdg1

Nach dem ersten Befehl lief sofort die Recovery los, so wie ich das erwartet hatte
Ich habe mir das kurz angesehen, er war aber noch bei "0%"
Der 2. Befehl brauchte sehr lange - ich glaube 40 Sekunden bis er angenommen wurde, danach war aber alles OK (Recovery und ein Spare!)
Doch nun kan es zu einer weiteren Störung

Störung vom 06.03.2018

Mar 07 19:24:34 raib2 kernel: md: md127: recovery done.
Mar 07 19:24:35 raib2 kernel: md: recovery of RAID array md127

also unmittelbar nachdem die erste recovery fertig war startete eine 2. und zwar ging es wieder um RAID-Drive 6 - sehr komisch - scheint mir ein Bug in der md-Software zu sein
ich werde einfach die recovery aussitzen und dann das remove-te Drive zu einem Spare machen!

Ausbau 26.03.2018

Ausbau "Adaptec" da ich diesen aktiv kühlen muss
Einbau AOC SAS MC
Kauf von
- Kabel SFF-8087 auf 4x SATA
- Kabel SFF-8087 auf 4x SAS mit 5.25" Stromstecker
Somit war der Einbau des "herumliegen" Fehlkaufes - eines SAS Platte "" - möglich
Nunmehr 11 Platten im System
Raid-Grösse auf 9 Platten vergrössert
Anzahl der Spares auf 2 erhöht
alle Platten wieder im Gehäuse untergebracht

Störung 30.09.2019

Nach dem reboot sind alle Platten da, aber "sdk1" hat die Rolle (5) von "sdi5" geklaut
Jetzt denkt er es ist ein raid0-System es steht auf inactive

/dev/md0:

          Version : 1.2
       Raid Level : raid0
    Total Devices : 11
      Persistence : Superblock is persistent
            State : inactive
             Name : raib2:0  (local to host raib2)
             UUID : 500aa0db:5aca5187:5617c3ff:dc97c2c4
           Events : 61369

   Number   Major   Minor   RaidDevice

      -       8       17        -        /dev/sdb1
      -       8       33        -        /dev/sdc1
      -       8       49        -        /dev/sdd1
      -       8       65        -        /dev/sde1
      -       8       81        -        /dev/sdf1
      -       8       97        -        /dev/sdg1
      -       8      113        -        /dev/sdh1
      -       8      129        -        /dev/sdi1
      -       8      145        -        /dev/sdj1
      -       8      161        -        /dev/sdk1
      -       8      177        -        /dev/sdl1

Ich habe mit mdadm --examine /dev/sd*1 jede einzelne Rolle angesehen
dabei war "k" eigentlich im Verbund nicht mehr dabei, hatte aber die identität "5" wie "i"
Erste Idee war also dass ich "k" ganz abschalte!! "WD-WCC4M0SC7AR1"
OK, dass war das "böse" Drive zumindest mal weg, das Problem war aber nicht gelöst
Dann habe ich das Array neu re-created:
mdadm --create --assume-clean --verbose /dev/md0 --level=6 --raid-devices=9 /dev/sd[cdefghijk]1

RAID6-2016

Inhaltsverzeichnis

Serien Nummern

Block B (oben)

Block A (unten)

HDD - Cage

Setup Aufbau

Produktiv

Störung vom 28.12.2017

Störung vom 06.03.2018

Störung vom 06.03.2018

Ausbau 26.03.2018

Störung 30.09.2019

Navigationsmenü