盡管NVMe SSD硬盤是一種高度可靠的存儲技術,但它們仍然容易發生故障。以下是使SSD硬盤保持最佳狀態的一些最佳做法。
與機械硬盤相比,SSD硬盤十分可靠。然而,沒有一種存儲技術是完美的。即使是最新的NVMeSSD硬盤,也可能會突然損壞或逐漸崩潰。
人們需要了解即將發生的SSD硬盤故障的跡象,以及了解如何對出現故障的SSD進行故障排除,可以標記出永久性數據丟失和無故障恢復之間的區別。像任何存儲設備一樣,NVMeSSD最終將失敗。唯一的變量是何時。與機械硬盤不同,固態硬盤無法發出聲音警告,以提示可能出了問題。然而,雖然SSD硬盤可能已經損壞,但不一定全部丟失數據。
這里介紹了SSD硬盤故障的四個主要原因,以及如何解決這些問題。
1. 過熱
NVMeSSD硬盤雖然是新興產品,但困擾它們最多的問題卻是計算技術中最古老的問題之一:熱量。IT管理軟件和監視工具提供商Solar Winds公司首席技術官Leon Adato表示:“NVMeSSD硬盤可能會瘋狂運行,特別是如果正在執行諸如高級計算之類的密集操作時。即使在常規操作下,NVMeSSD硬盤也會產生引起問題的溫度。”
提供足夠的冷卻可以確保SSD硬盤不會過熱,從而防止其發生故障或節流到較低的速度。其挑戰在于尋找一種從驅動器中散熱的方法。有多種解決此問題的方法。Adato說,“您可以使用大型機箱,在其中可以確保芯片上有大量直接的外部氣流,或者可以安裝散熱器,風扇或液體冷卻系統。”
將室溫降低到較低的溫度還可以顯著解決與SSD硬盤熱量相關的問題。Adato說:“無論采用哪種方法,其想法都是要采取一些措施來增加冷卻和/或降低系統機箱內部的環境溫度。”
2. 固件故障
SSD硬盤固件異常復雜,許多SSD硬盤故障往往只是一個極端情況,僅在正常運行參數范圍之外才會出現此問題。幸運的是,當出現嚴重的固件問題時,大多數SSD硬盤會自動進入故障保護模式。英特爾公司高級戰略規劃師兼產品經理,負責開發NVMe規范的財團NVMExpress的工作組聯合主席JonmichaelHands說,“如果SSD硬盤無法保證數據的完整性,那么通常賣方會實施'斷言'或其他故障模式,使名稱空間脫機或置于只讀模式,以保護主機軟件免于讀取不良數據。”
固件問題時有發生。例如,去年11月,惠普企業發布了客戶公告,警告其SSD硬盤固件版本HPD8需要嚴重修復。無法應用此修復程序的組織將在32,768小時的運行時間下看到其驅動器發生故障。結果,恰好在3年270天零8個小時后,存儲在驅動器上的所有數據都將丟失。
3. 濫用
SSD硬盤濫用最常見的形式是硬盤過早磨損,因為它與數據中心的工作負載不匹配。Hands說:“例如,具有較低耐久性的[四級單元]驅動器用于橫向擴展存儲或對象存儲,而不用作具有大量隨機寫入的緩存硬盤。”
幸運的是,可以準確地預測和建模耐久性,因此很容易提前計劃以減輕SSD硬盤故障。Hands說:“知道SSD硬盤支持什么DWPD(硬盤每天寫入的數據)和TBW(寫入的兆字節)。對企業的工作量進行建模,并確定哪種SSD硬盤最好。”為了預測驅動器的失效日期,可以使用有用的工具,例如英特爾的SSD硬盤久性估算器。
4. 潛在問題
在開始引起重大麻煩之前,SSD硬盤問題通常不會變得明顯。越早知道存在問題,企業就可以更快地響應情況并最大程度地減少影響。阿達托說:“確保使用硬件監視軟件來跟蹤...組件的I/O速度,壞塊和其他故障模式,以便在出現問題時盡快知道。”
Adato指出,創建一個商業環境也很重要,在該商業環境中,最終用戶可以輕松地報告運行不佳,欠佳或異常的基于SSD硬盤系統。他說:“IT部門需要迅速了解故障,而解決故障遠比找罪責方重要得多。”
當涉及SSD硬盤故障時,快速解決問題是防止過多損壞的關鍵。Adato說:“企業所希望的最好的結果是失去了對該驅動器進行寫入的能力,但保留了對其進行讀取的能力。因此,企業可以在將設備發送到廢料堆之前將所有數據復制到另一個SSD硬盤。”
-
存儲技術
+關注
關注
5文章
731瀏覽量
45781 -
固態硬盤
+關注
關注
12文章
1452瀏覽量
57269 -
SSD硬盤
+關注
關注
0文章
38瀏覽量
11782
原文標題:SSD硬盤故障的4個原因及處理方法
文章出處:【微信號:D1Net11,微信公眾號:存儲D1net】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論