服務器存儲數據恢復環境:
一臺EMC某型號存儲中有一組RAID5磁盤陣列。該raid5陣列中有12塊硬盤,其中2塊硬盤為熱備盤。
服務器存儲故障:
該存儲raid5陣列中有兩塊硬盤離線,只有1塊熱備盤啟用替換掉其中一塊離線盤,另外1塊熱備盤未成功啟用,raid5陣列崩潰,存儲不可用。
磁盤陣列中硬盤離線的原因通常是磁盤存在物理故障或者硬盤出現壞道。由于EMC存儲中的raid控制器的磁盤檢查策略十分嚴格,經常將硬盤的性能不穩定判定為硬件故障并將該硬盤踢出raid。很多情況下EMC存儲中raid崩潰的原因就是磁盤讀寫不穩定。
服務器存儲數據恢復過程:
1、將存儲中所有磁盤標記后取出,由硬件工程師對所有磁盤進行物理故障檢測,經過檢測沒有發現有硬盤(包括離線硬盤)存在物理故障。使用壞道檢測工具進行排查也一切正常。以只讀方式將所有磁盤進行扇區級全盤鏡像。鏡像完成后將所有磁盤按照標記還原到原存儲中,后續的數據分析和數據恢復操作都基于鏡像文件進行,避免對原始磁盤數據造成二次破壞。
北亞企安數據恢復—raid5數據恢復
2、基于鏡像文件分析RAID組結構。分析發現作為熱備盤的2塊盤全部沒有數據,其中一塊熱備盤雖然成功激活并替換一塊掉線的硬盤,但是數據并未同步。繼續分析該raid的條帶大小、數據的分布規律、磁盤順序等重組raid的必要信息,并找到較早掉線的那塊硬盤。根據分析獲取到的raid相關信息重組raid。
3、分析磁盤陣列中的LUN。由于底層只分配了一個LUN,所以只需分析這一個lun的信息。分析完成后使用北亞企安自主開發程序解釋map數據并導出,然后使用另外一個自主開發的程序對導出數據進行zfs文件系統解釋,但是在解析過程中出現報錯。工程師對該程序做debug調試后發現報錯原因是文件系統中的某些元文件損壞。需要將這些損壞的文件系統元文件進行修復后才能正常解析ZFS文件系統。
4、對損壞的元文件進行分析后發現,ZFS文件系統正在進行IO操作的時候raid癱瘓,從而導致元文件損壞。北亞企安數據恢復工程師對這些損壞的元文件進行手工修復。
5、修復完成后再次做ZFS文件系統解析,解析所有文件節點及目錄結構。解釋完成后驗證所有數據,經過驗證確認所有數據完整。用戶認可數據恢復結果。
北亞企安數據恢復—raid5數據恢復
北亞企安數據恢復—raid5數據恢復
北亞企安數據恢復—raid5數據恢復
審核編輯 黃宇
-
存儲
+關注
關注
13文章
4064瀏覽量
85141 -
服務器
+關注
關注
12文章
8589瀏覽量
84124 -
數據恢復
+關注
關注
10文章
493瀏覽量
17071 -
RAID5
+關注
關注
0文章
100瀏覽量
12673
發布評論請先 登錄
相關推薦
評論