跳到主要內容

RAID5重建失敗的步步驚慌



10/7 連假的第一天我的QNAP NAS RAID5 第四顆硬碟(WD 3TB RED)SMART檢查出05和C5的錯誤,當時我打算等有空閒的時候再買一個硬碟處理

10/8 晚間原先跳出SMART錯誤的硬碟被NAS判定離線,整個RAID5進入降級模式。一方面我利用PCHOME購買硬碟,另一方面我將硬碟內的一部分的資料備份到其他裝置上,剩下約4TB左右的資料因為找不到可容納的裝置備份只好先擱置著等待重建完成。

10/9 下午4點將PCHOME送來的硬碟放入NAS後馬上開始重建作業。原先我以為TS-451重建速度應該會有40-50MB,但實際上重建速度大約在20-30MB左右,依照這速度9TB應該需要花30小時左右的時間完成。

10/10 國慶日當天晚上6點NAS發出長嗶聲,正當我以為RAID5已重建完成時,我看到的卻是第二顆硬碟(WD 3TB RED)出現故障,也因此整個RAID5無法讀取,此時全部的資料一瞬間花為泡影。



因為HDD2讀取錯誤造成RAID5重建失敗連帶造成RAID消失


此時的我心中無限感慨,因為我真的遇到傳說中的RAID5重建過程中同時故障兩顆硬碟的情形,針對此情形我也不感到意外,因為我的NAS內的硬碟全部都是(WD 3TB RED)也是同一個時間購買的,這種同廠同時間的組合方式很常出現一顆掛,重建過程其他硬碟陸續掛的情形。

雖然說最好使用不同廠牌和不同時期甚至不同運作時間的硬碟組RAID,但是說真的大部分NAS硬碟不是買來時廠商已經安裝同一廠牌的硬碟,或者是自己購買同一廠牌同一型號的硬碟安裝。

同廠同時間的硬碟組合RAID5在重建的過程中沒有故障真的是老天保佑,我也遇過RAID6重建完後又故障的情形,但那又是另外一回事了。

回到主題,我把被NAS判斷故障的第二顆硬碟接上電腦後,並透過HD Tune查看硬碟情況後確認。該硬碟不僅SMART完全正常無05和C5的錯誤,馬達運轉正常而且還通過讀取測試(只有前半段約500GB的完整讀取)。我認為此硬碟應該還能讀取,於是我將NAS直接斷電並將NAS的硬碟全部接上電腦並可以透過此文章 [實測] 如何以 PC 恢復 Synology/Asustor/QNap 的方式重新掛載磁區並查看NAS的資料。
事件結束後截圖:HDD2已經被NAS剔除RAID,但是SMART都沒有異常

安裝我比較常使用的XUbuntu後再透過指令

# mdadm -Asf && vgchange -ay


重新掛載硬碟後發現md9、md13均可正常掛載,唯獨md1也就是主要的資料無法掛載。
接著透過指令

#mdadm --detail /dev/md1 

查詢md1的詳細資料,我看見硬碟1、2、3都顯示正常,硬碟4顯示重建中,重建進度為80%,狀態為clean,degrade,recovering

示意圖,圖片來源https://www.tecmint.com/manage-software-raid-devices-in-linux-with-mdadm/

而且,並無任何錯誤。
依據上述我確信我的RAID5只要能夠透過強制掛載或是其他方式就可以將資料讀取出來,但是當我透過指令

# mount /dev/md1 /mnt/md1


掛載磁區只會看到一句mount: unknown filesystem type 'drbd'



不管我使用

# mount -t ext4 /dev/md1 /mnt/md1

或是# mount -t ext3 /dev/md1 /mnt/md1


的指令看到卻是 wrong fs type, bad option, bad superblock on /dev/md1, missing codepage or helper program 看起來這個/dev/md1既不屬於ext3也不屬ext4,而是屬於一種drbd的格式。


透過google查詢drbd後發現這是屬於lvm(Logical Volume Management)的東西,但是上面的指令vgchange -ay其實已經包含在內。


無論我如何使用任何方式就是無法將/dev/md1未知的'drbd'type成功的掛載,正當我又透過mdadm --detail /dev/md1指令查詢一次RAID資料,意外發現重建進度居然變成82%?


意識到RAID會自己將剩下的部分重建後,等待一個半小時的時間終於重建完成?(這個問號是我對裡面的資料的內容是否還是正確的的懷疑,因為RAID5的特性關係,再加上我死馬當活馬醫的方式)

重建完成後利用手機拍攝重建完成的結果,看起來是有希望的

抱著重建完成後應該就可以正常掛載硬碟的想法的我再次下了
# mount /dev/md1 /mnt/md1,
很遺憾的是依舊是那句mount: unknown filesystem type 'drbd'

在百般嘗試,都是徒勞無功的結果後。最後10/11 清晨一點在找不到如何處理drbd的方式的我決定告訴自己裡面的資料完全死亡。這讓我很難過,明明知道硬碟內的資料或許有救但是無法掛載,就像是火災現場逃生時只差一步就到出口卻遇上鎖上的逃生門無力回天的無奈。

關閉救援的電腦後我將硬碟依照順序放回NAS內再次開機,經過這次事件我再也不打算使用RAID5而採用RAID6並將這台NAS從原先的影音播放器改成異地備援機。

隨著NAS的開機後,卻看到了希望的曙光。原先NAS判定inactive的RAID5居然變成第二顆硬碟故障的降級模式,第四顆重建中的硬碟變成上線中。整個分享資料夾就像沒有發生事情一樣依舊存在並檔案還可以讀取正常?!(需要再驗證)

事件記錄說RAID不乾淨需要做檔案檢查,打算備份結束後再檢查檔案

難道電腦的重建成功了?是否那個未知的drbd格式一定要透過QNAP NAS才能掛載? 此時此刻的我已經不去想那些東西,現在的我只想買個8TB的外接硬碟把裡面的資料完整拷貝出來,並依照計畫將這台NAS改成RAID6。


QNAP mdadm 查詢結果 少了第二個硬碟

裡面的資料應該正常吧? 希望RAID重建80%的時候已經把資料完成重建完成(只使用67%)

儲存池目前只知道第二顆硬碟遺失

後記:

RAID5同時掛兩顆到底有沒有救?答案是不可能!我的情況是NAS遇到讀取錯誤後硬碟被踢掉造成第二顆硬碟無效,但是硬體上依然可以讀取,原先的第四顆硬碟讀取已經發出馬達愛轉不轉硬體死亡的情況。
假設當時第二顆硬碟也是這情形,我想這篇文章就不會出現了。

網路上有很多嘗試處理或解決的方法,但是切記每個看到的指令和參數例如"mount、mdadm -Asf "等等都要GOOGLE一下它的意義,不要下可能會寫入磁碟或是修改磁區指令,我看到的教學中有一個針對無法掛載可能是磁區損毀造成的原因需要透過修復磁區的方式修復後再掛載。

RAID6是否比RAID5安全,我的經驗是我遇到RAID6同時壞兩顆4TB(DS1812+),重建順利完成後隔天第三顆硬碟故障,真的是否安全?我看起來一切都是運氣。

沒事多備份,多備份沒事。重要資料請記得多多備份。

因為這台NAS都是放影片音樂還有YOUTUBE下載的影片資料所以就沒想到備份,也因此產生了這篇文章。

最後的最後能看到資料真的是奇蹟。

參考資料
[實測] 如何以 PC 恢復 Synology/Asustor/QNap

https://www.mobile01.com/topicdetail.php?f=494&t=3432010

mdadm 指令的說明

http://ericbbs.blogspot.tw/2009/05/mdadm-raid.html

lvm 指令說明

http://justforyou046.blogspot.tw/2012/05/lvm.html

QNAP論壇也有其他人遇到無法掛載drbd的情況,但是似乎無法解決

https://forum.qnap.com/viewtopic.php?t=132679
https://forum.qnap.com/viewtopic.php?t=126088

2009年12月27日發生盜文事件後新增文字版權:本文作者為WolfRIYA 靖雷所有,網址為http://wolfriya.blogspot.tw。非http://wolfriya.blogspot.tw部落格內的所有文章皆為盜文,目前已知盜連者請點這(痞克邦)

留言

這個網誌中的熱門文章

TBLeague 1/6 Horus God of the Sky 天神荷魯斯 (銀)

  TBLeague 1/6 Horus God of the Sky 天神荷魯斯 (銀) 今年6月中旬看到上海2021WF展覽的照片後我就被會場版荷魯斯吸引住,原先我以為這是會場限定版本但沒多久就看到這款荷魯斯開放預訂的消息。

HP ProLiant MicroServer Gen8 與ESXi的辛路歷程

曾經有過購買主機板+CPUI74790K的選擇,但我沒有去購買,直到購買HP ProLiant MicroServer Gen8才後悔莫及,塵世間最痛苦的事莫過於此,如果上天能給我一個再來一次的機會,我絕對會用相同的價位買一片主機板+CPUI74790K

HP ProLiant MicroServer Gen8 兩星期的使用心得

這台伺服器吸引我的不是它卓越的性能,而是它那小巧方型的造型,和我的NAS並列在一起也沒有太多違和感。也因為這樣的原因我踏上了一條充滿皺摺的不歸路...