服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境:
華為OceanStor某型號存儲,存儲內(nèi)有一組由24塊硬盤組建的raid5陣列,配置1塊熱備盤。
服務(wù)器故障:
該存儲raid5陣列中有一塊硬盤離線,熱備盤自動激活并開始同步數(shù)據(jù),在熱備盤同步數(shù)據(jù)的過程中,raid5陣列中另一塊硬盤離線,上層應(yīng)用崩潰,數(shù)據(jù)丟失。
服務(wù)器數(shù)據(jù)恢復(fù)過程:
1、將該存儲中所有硬盤編號后取出,硬件工程師對所有硬盤進行硬件故障檢測,經(jīng)過檢測發(fā)現(xiàn)raid5中只有1塊硬盤存在硬件故障,其他硬盤可正常讀取。將完好硬盤以只讀方式進行全盤鏡像,鏡像完成后按照編號將所有磁盤還原到原存儲中,后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進行,避免對原始磁盤數(shù)據(jù)造成二次破壞。
由于本案例所使用的raid控制器對磁盤檢測策略比較嚴格,通常會將無物理故障但性能不穩(wěn)定的硬盤識別為壞盤并踢出raid陣列。之前硬件工程師只檢測到一塊硬盤有物理故障,另外一塊掉線盤應(yīng)該是因為讀寫不穩(wěn)定被踢出陣列掉線。
2.、基于鏡像文件分析每塊硬盤的底層數(shù)據(jù),獲取到條帶大小、數(shù)據(jù)走向、盤序、熱備盤、數(shù)據(jù)庫的分布規(guī)律等raid相關(guān)信息。根據(jù)獲取到的raid5相關(guān)信息虛擬重組raid5陣列。
3、在重組raid5陣列的過程中發(fā)現(xiàn)有一塊硬盤在相同條帶上的數(shù)據(jù)與其他硬盤的明顯不同,該硬盤進行條帶校驗后確認該硬盤被同步破壞。
4、重組raid5陣列后,數(shù)據(jù)恢復(fù)工程師分析lun在raid5陣列中的分配情況及數(shù)據(jù)塊map。將map提取出來后通過北亞企安自研數(shù)據(jù)恢復(fù)程序解析&恢復(fù)lun數(shù)據(jù)。
5、北亞企安數(shù)據(jù)恢復(fù)工程師編寫文件系統(tǒng)解析程序?qū)μ摂M重組出來的raid5陣列中的文件系統(tǒng)進行解析,導(dǎo)出數(shù)據(jù)庫文件后交由數(shù)據(jù)庫工程師進行校驗和修復(fù)。
6、數(shù)據(jù)庫工程師對數(shù)據(jù)庫文件進行驗證后發(fā)現(xiàn)部分數(shù)據(jù)庫文件和日志文件異常,表空間內(nèi)存在大量壞塊,所有控制文件被破壞,undotbs02丟失。數(shù)據(jù)庫工程師對數(shù)據(jù)庫文件進行修復(fù)。
數(shù)據(jù)庫文件修復(fù)過程:
北亞企安數(shù)據(jù)恢復(fù)——OceanStor存儲數(shù)據(jù)恢復(fù)
北亞企安數(shù)據(jù)恢復(fù)——OceanStor存儲數(shù)據(jù)恢復(fù)
7、經(jīng)過數(shù)據(jù)庫工程師對數(shù)據(jù)庫文件的修復(fù)和驗證,終于成功恢復(fù)數(shù)據(jù)庫數(shù)據(jù)。數(shù)據(jù)恢復(fù)工程師將修復(fù)好的數(shù)據(jù)庫數(shù)據(jù)導(dǎo)入準(zhǔn)備好的環(huán)境中進行驗證,經(jīng)過驗證所有數(shù)據(jù)均正常。用戶方工程師對數(shù)據(jù)進行驗證也沒有發(fā)現(xiàn)異常。本次服務(wù)器數(shù)據(jù)恢復(fù)工作完成。
審核編輯 黃宇
-
存儲
+關(guān)注
關(guān)注
13文章
4123瀏覽量
85279 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
8701瀏覽量
84554 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
507瀏覽量
17204 -
RAID5
+關(guān)注
關(guān)注
0文章
103瀏覽量
12678
發(fā)布評論請先 登錄
相關(guān)推薦
評論