FreeBSD:zfsのディスク故障


ふと鯖を見てたらディスクにエラーが・・・
このうだるような暑さで逝ってしまわれたのか、やれやれだ

Jun 17 04:17:02 nekosaba smartd[1457]: Device: /dev/ada2, 1 Currently unreadable (pending) sectors

このようなエラーが延々と出てた。放置してたら増えてきたのでこらあかんわ( ̄∇ ̄;)

Jun 23 11:47:02 nekosaba smartd[1457]: Device: /dev/ada2, 53 Currently unreadable (pending) sectors

SMART見ると代替済みセクタの数も増えてたので急ぎ交換する必要があったね
とりあえずzpoolからデバイスをOFFLINEにして取り外す。
代わりのディスクの調達だが・・・4k sectorのHDDは値段が安いのだけどzfsで運用するにはまだ不安が残っている。
いつだったかのアップデートで対応はしている(まだ入ってないbugの修正もあるようだ)
しかし512バイトのディスクと混在したらどうなるかとか、情報がいまいち揃ってないので
とりあえず512バイトセクタのHDDを調達することに・・・なんとHGSTさんしか無いわけですが

というわけで買ってまいりました
[新製品]日立 HDS5C3020ALA632 (2010年12月25日号)

Jun 24 11:38:23 nekosaba kernel: ada2:  ATA-8 SATA 3.x device
Jun 24 11:38:23 nekosaba kernel: ada2: 300.000MB/s transfers (SATA 2.x, UDMA6, PIO 8192bytes)
Jun 24 11:38:23 nekosaba kernel: ada2: Command Queueing enabled
Jun 24 11:38:23 nekosaba kernel: ada2: 1907729MB (3907029168 512 byte sectors: 16H 63S/T 16383C)

あとはぽちぽちとディスクのリプレースをzfsにやらせるだけ

NEKOSABA /root# zpool status
  pool: zfsboot
 state: ONLINE
 scrub: none requested
config:

        NAME                                          STATE     READ WRITE CKSUM
        zfsboot                                       ONLINE       0     0     0
          gptid/ede9af12-625c-11e0-9e56-68b599e4d036  ONLINE       0     0     0

errors: No known data errors

  pool: zpool1
 state: DEGRADED
status: One or more devices has been taken offline by the administrator.
        Sufficient replicas exist for the pool to continue functioning in a
        degraded state.
action: Online the device using 'zpool online' or replace the device with
        'zpool replace'.
 scrub: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        zpool1      DEGRADED     0     0     0
          raidz1    DEGRADED     0     0     0
            ada1    ONLINE       0     0     0
            ada2    OFFLINE      0     0     0
            ada3    ONLINE       0     0     0
            ada4    ONLINE       0     0     0
            ada5    ONLINE       0     0     0

errors: No known data errors
NEKOSABA /root# zpool replace zpool1 ada2 ada2
NEKOSABA /root# zpool status
  pool: zfsboot
 state: ONLINE
 scrub: none requested
config:

        NAME                                          STATE     READ WRITE CKSUM
        zfsboot                                       ONLINE       0     0     0
          gptid/ede9af12-625c-11e0-9e56-68b599e4d036  ONLINE       0     0     0

errors: No known data errors

  pool: zpool1
 state: DEGRADED
status: One or more devices is currently being resilvered.  The pool will
        continue to function, possibly in a degraded state.
action: Wait for the resilver to complete.
 scrub: resilver in progress for 0h0m, 0.00% done, 1846h21m to go
config:

        NAME            STATE     READ WRITE CKSUM
        zpool1          DEGRADED     0     0     0
          raidz1        DEGRADED     0     0     0
            ada1        ONLINE       0     0     0
            replacing   DEGRADED     0     0     0
              ada2/old  OFFLINE      0     0     0
              ada2      ONLINE       0     0     0  2.64M resilvered
            ada3        ONLINE       0     0     0
            ada4        ONLINE       0     0     0
            ada5        ONLINE       0     0     0

errors: No known data errors

およそ6時間ほどかかるらしい。3.7Tほど入ってるストレージだからなぁ・・・

Leave a Comment


NOTE - You can use these HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>