服務器數據恢復環境:
北京某科技大學,某品牌PowerEdge系列某型號服務器,6塊SAS硬盤組成RAID5;
操作系統REDHAT,文件系統EXT3,分區采用LVM方式,存儲著該大學某研究室運算1年多的重要數據。
服務器故障&分析:
未知原因導致服務器崩潰。管理員進入RAID控制界面檢查發現1號盤與6號盤狀態顯示損壞。咨詢服務器原廠工程師后,管理員強制上線6號盤,結果raid無法啟動(操作系統也安裝于此RAID)。管理員意識到問題嚴重性,馬上停止所有操作。
根據用戶的描述及故障表現,北亞服務器數據恢復工程師推斷本案例中的RAID5陣列中應該有一塊硬盤早離線,這時候磁盤陣列還能正常工作,后來又有一塊硬盤離線,從而導致RAID陣列崩潰。按照管理員的描述,6號盤早離線,1號盤后離線。
如果上面的推斷屬實,1號盤只要能正常讀取即可恢復全部的數據。但管理員強制上線6號盤,可能會導致文件系統不一致,引起其他盤的數據發生變更。
經過研究,北亞數據恢復工程師敲定了恢復數據的思路:
首先檢測所有硬盤狀態,分析RAID信息,剔除掉陳舊數據盤。根據分析出來的RAID信息重組RAID,讀取數據;或直接以EXT3的模式恢復數據。
服務器數據恢復過程:
1、服務器數據恢復工程師拿到故障服務器硬盤后以只讀方式對所有硬盤做鏡像備份,使用不含RAID功能的SAS適配器作為物理連接進行備份。后續數據恢復操作都在備份文件上進行,避免對數據造成二次傷害。
2、基于鏡像文件對RAID結構進行分析,獲取到原始RAID相關信息。
3、對RAID進行一致性校驗,結果發現大量的不匹配。
4、從6塊盤中剔除掉陳舊盤。但此時發現前部分區結構的內容錯誤,應該為強制上線6號盤所導致的問題。
5、修正硬盤結構,將LVM改為普通分區指引。
6、通過北亞自主研發軟件解釋EXT3并讀取數據,以SAMBA方式導出至LINUX EXT3目標分區。到此步數據恢復已經完成。
7、經過用戶親自檢測沒有發現問題,協助用戶把數據導入準備好的環境中,一切正常。
審核編輯:湯梓紅
-
服務器
+關注
關注
12文章
9021瀏覽量
85185 -
RAID
+關注
關注
0文章
273瀏覽量
35056 -
數據恢復
+關注
關注
10文章
549瀏覽量
17390
發布評論請先 登錄
相關推薦
評論