之前才跟大家提過如何去新增與修復群暉NAS的陣列空間
其實水哥最近的狀況不只如此
不過現在問題已經確定解決, 所以也就一起提出來
水哥因為工作其實手邊管理好幾台NAS, 其中有一台DS1819+在12/19號凌晨突然發出警告說壞了四顆硬碟
真的是嚇到我了= =”
沒概念的人可能沒感覺
但你想想…八顆硬碟突然跟你說四顆有問題
會不會抖呢? 畢竟你就算用SHR2(RAID6等級)也頂多同時允許兩顆硬碟故障…何況那台只使用了SHR(RAID5等級), 只能承受一顆硬碟故障…
進到系統裡面
果然呈現故障的狀態…
雖然資料是都還可以存取, 但根據使用者的反應, 是覺得有變慢的!
儲存空間內顯示警告狀態
儲存集區可以看到硬碟2,3,4,7已經顯示嚴重…
點開來看則是顯示
健康狀態嚴重, 壽命則只剩下1%= =”
以往都沒有碰過突然壞成這樣的…
畢竟一般都是先來幾個壞軌, 然後慢慢增加到一定限度才會有損失資料的危機
總之就是看起來很可怕
畢竟就算我現在換了新的硬碟進去, 也只能一顆一顆重建陣列
但在修復一顆的時間內, 如果剩下三顆嚴重的有其中一顆壞了, 那你的資料就直接宣告掰掰了= =
不過怕歸怕, 現實還是得面對…
準備好備品與事前的資料備份之後
決定要來換上第一顆新硬碟開始修復
首先選擇的是第二顆, 可以從圖中看到我已經先把硬碟2拔出
然後待修復硬碟數量則是1
但這個待修復的數量雖然是1, 僅僅代表有一顆硬碟不屬於這個陣列, 要加進去
這就會需要我們去動作裡面點選修復了…
然而…這時系統卻不給點= =
其實是發生了這個狀況
系統依舊認為你換上去的是壞掉的硬碟…(原本硬碟2序號末四碼是2295換上的是3976)
可以看到執行SMART狀態檢測後依舊是顯示嚴重>”<
原本以為是水哥人品難得不夠好, 拿到的新備品也是壞了(可以看到圖中硬碟2反覆插拔了幾次, 就是水哥反覆更換硬碟做嘗試)
後來換了第兩顆後依舊顯示同樣的故障標示…
我就覺得不太對勁了, 應該是其他的狀況
後來經過聯絡群暉科技, 請對方遠端查看
一開始群暉科技的人員也找不到問題
後來才透過更新SMART資料庫後解決這個狀況
結果後來硬碟顯示完全恢復(硬碟2,3,4,7)
就是剛剛顯示嚴重的那幾顆…剛剛說壽命剩1%的…囧
所以可以說~~根本就沒有半顆硬碟是有問題的, 僅僅是系統誤判…
真的是讓人很想罵髒話…
這幾天每天為了它都睡不好做惡夢阿>”<
顯示恢復正常後就可以點選修復了…
雖然把原本的硬碟插回去也可以還原
但水哥覺得還是要做一下災難恢復的演練, 順便研判一下SSD 1TB做陣列修復需要多少時間
像水哥之前用DS415+ 4TB HDD修復1顆就需要約26hr
之後修復的紀錄大概是這樣
可以看到一開始拔出硬碟2後會顯示Storage Pool degrade
後來開始修復到修復結束大約1.5hr
所以固態硬碟1TB修復僅僅需要1.5hr的時間而已
修復後的儲存集區
可以看到硬碟2已經是新硬碟的序號
唉, 只能說學一次教訓, 但感覺就是浪費很多時間去搞它><
如果有人也碰到類似的狀況
或許去手動更新一下smart狀態就會好了??
但話說回來, 其實我一段時間就會主動去點更新一下啊
而DSM也沒有做更新或者重開機, 感覺還是系統突然誤判造成
雖然資料沒少, 也沒影響營運, 但是…感覺真的很靠杯
只能多多準備硬碟空間等等來做備份了, 至少在災難救援上多一層保障
後來我還有想到一個問題, 被誤判的硬碟名稱都是WDC WDC開頭, 沒被誤判的則只有一個WDC…
所以這個鍋我看WD或許也要幫群暉背一下
探索更多來自 哪裡好吃哪裡去:美食避雷箴 的內容
訂閱即可透過電子郵件收到最新文章。