作業領域RAID5崩壊 - kinneko@転職先募集中の日記

sh-2.05b# cat /proc/mdstat
Personalities : [linear] [raid0] [raid1] [raid5]
md10 : active raid5 sdd6[4] sda6[0] sdc6[2] sdb6[5](F)
      725768256 blocks level 5, 64k chunk, algorithm 2 [4/2] [U_U_]

md13 : active raid1 md10[0]
      725768192 blocks [2/1] [U_]

md5 : active raid1 sdd5[3] sda5[0] sdc5[2] sdb5[1]
      530048 blocks [6/4] [UUUU__]

md2 : active raid1 sdd2[3] sda2[0] sdc2[2] sdb2[1]
      409536 blocks [6/4] [UUUU__]

md1 : active raid1 sdd1[3] sda1[0] sdc1[2] sdb1[1]
      208768 blocks [6/4] [UUUU__]

rootfsをrwにして、シェルで/mnt/sataraid1(md13)を開いていた。
catとかviくらいで、たいした作業はしてなかった。
裏でスポットリペアが動作していた模様。
作業中、突然viでswapが開けないとエラーが出た。
何かと思ってvi抜けたら、もうsataraid1はからっぽ。
崩壊してた領域で作業してたからか、md13は死んでない。
というわけで、崩壊処理のイベントがおかしくなり、WebUIのシステムは応答しなくなっていた。

結果
システムが処理中です。(HDLsystem)
しばらく待ってからもう一度操作をやり直してください。

間抜けだ...

やっぱり、RAID5なんで信用できない。

ログを確認。
動いていたのは、スポットリペアじゃなくて、自動リビルド処理だったようだ。
何の警告もせずに、ヒトの判断待たずに勝手に自動でリビルドするシステムなんて、わたしなら絶対設計しない。
というわけで、よくあるリビルド中の不良セクタによる崩壊だった模様。
ほんとに、RAID5なんて信用できないわ。
というか、他人の設計実装したシステムを信じるのがバカだな。