服務(wù)器存儲數(shù)據(jù)恢復(fù)環(huán)境:
某品牌服務(wù)器存儲中有一組由6塊SAS硬盤組建的RAID5陣列,其中有1塊硬盤作為熱備盤使用。上層劃分若干lun,存放Oracle數(shù)據(jù)庫數(shù)據(jù)。
服務(wù)器存儲故障&分析:
該RAID5陣列中一塊硬盤出現(xiàn)故障離線,熱備盤自動激活替換故障硬盤,熱備盤同步數(shù)據(jù)的過程中該raid5陣列中又有一塊硬盤出現(xiàn)故障,RAID5陣列癱瘓,上層LUN無法正常訪問。
因為本案例中存儲控制器的磁盤檢查策略嚴(yán)格,一旦某些磁盤性能不穩(wěn)定,該型號存儲控制器就將該塊磁盤識別為壞盤,并將該塊磁盤踢出RAID。一旦RAID中掉線的盤數(shù)到超過RAID級別允許掉盤的最大數(shù)量,該RAID將不可用,上層基于RAID的LUN也無法訪問,從而導(dǎo)致重要數(shù)據(jù)丟失。
服務(wù)器數(shù)據(jù)恢復(fù)過程:
1、將故障服務(wù)器存儲中所有磁盤編號后取出,由硬件工程師對所有磁盤做物理故障檢測,經(jīng)過檢測發(fā)現(xiàn)有一塊硬盤存在物理故障,其他硬盤沒有發(fā)現(xiàn)明顯物理故障。將所有完好磁盤以只讀方式進(jìn)行扇區(qū)級全盤鏡像。針對那塊故障磁盤,由專業(yè)工具處理后做鏡像。鏡像完成所有磁盤后,按照編號將所有磁盤還原到原服務(wù)器中,后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進(jìn)行,避免對原始磁盤數(shù)據(jù)造成二次破壞。
2、分析RAID組結(jié)構(gòu)
該品牌服務(wù)器存儲的LUN是基于RAID的。北亞企安數(shù)據(jù)恢復(fù)工程師基于鏡像文件分析底層RAID的信息,通過分析找到了熱備盤。繼續(xù)分析其他硬盤的底層數(shù)據(jù),分析Oracle數(shù)據(jù)庫頁在每個磁盤中分布的情況,并根據(jù)數(shù)據(jù)分布的情況得出RAID組的條帶大小,磁盤順序及數(shù)據(jù)走向等RAID的重要信息,然后根據(jù)分析獲取到的信息虛擬重構(gòu)原RAID。
3、完成重組raid后,分析LUN在RAID中的分配情況,以及LUN分配的數(shù)據(jù)塊MAP。只需要將LUN的數(shù)據(jù)塊分布MAP提取出來,然后針對這些信息編寫相應(yīng)的程序,解析LUN的數(shù)據(jù)MAP,然后根據(jù)數(shù)據(jù)MAP導(dǎo)出LUN的數(shù)據(jù)。
4、服務(wù)器存儲數(shù)據(jù)恢復(fù)方案:
a、數(shù)據(jù)恢復(fù)實施方案一
將Oracle數(shù)據(jù)庫數(shù)據(jù)所在的LUN進(jìn)行JFS2文件系統(tǒng)解析,人工修復(fù)文件系統(tǒng)不完整的地方。利用北亞企安自主開發(fā)的JFS2文件系統(tǒng)解析工具解析恢復(fù)的LUN,恢復(fù)文件系統(tǒng)中所有的Oracle數(shù)據(jù)庫文件,并檢測Oracle數(shù)據(jù)庫文件的完整性。
針對檢測出有壞塊的數(shù)據(jù)庫文件,掃描所有磁盤中的Oracle數(shù)據(jù)頁碎片,組合掃描出來的數(shù)據(jù)頁,通過人工將有壞塊的數(shù)據(jù)庫文件填補(bǔ)修復(fù)完整。
在恢復(fù)完所有Oracle數(shù)據(jù)庫之后,發(fā)現(xiàn)其上層應(yīng)用SAP還是無法使用。SAP應(yīng)用的一些重要數(shù)據(jù)存放在損壞的存儲中,如果缺失這些數(shù)據(jù),SAP即使在數(shù)據(jù)庫完整的情況下也無法正常使用,因此還需通過方案二來恢復(fù)所有SAP的重要數(shù)據(jù)。
b、數(shù)據(jù)恢復(fù)實施方案二
對恢復(fù)的所有LUN都進(jìn)行文件系統(tǒng)解析,并將存放SAP的數(shù)據(jù)LUN做文件系統(tǒng)一致性檢測。對文件系統(tǒng)不完整的部分通過人工進(jìn)行修復(fù),恢復(fù)所有SAP及SAP Test的數(shù)據(jù)。
檢測SAP數(shù)據(jù),并修復(fù)損壞的SAP數(shù)據(jù),確保恢復(fù)出來的所有SAP數(shù)據(jù)均完整,這樣才能保證SAP應(yīng)用啟動。
結(jié)合恢復(fù)出來的SAP數(shù)據(jù)和數(shù)據(jù)庫,啟動SAP及所有應(yīng)用即可。
5、啟動并修復(fù)Oracle數(shù)據(jù)及SAP應(yīng)用
a、啟動數(shù)據(jù)庫并修復(fù)
將恢復(fù)出來的數(shù)據(jù)庫文件還原到搭建好的環(huán)境中,嘗試啟動數(shù)據(jù)庫。由于數(shù)據(jù)庫的一些臨時文件校驗不一致導(dǎo)致數(shù)據(jù)庫啟動失敗。Oracle數(shù)據(jù)庫工程師對數(shù)據(jù)庫進(jìn)行修復(fù)后,數(shù)據(jù)庫啟動沒有問題,數(shù)據(jù)庫中的所有用戶及所有表均完整,嘗試啟動SAP。
b、啟動SAP并修復(fù)
將恢復(fù)出來的SAP文件還原到已搭建好的環(huán)境中,并按照之前的啟動腳本啟動SAP,SAP啟動正常,但SAP中用戶權(quán)限及使用不正常,SAP表現(xiàn)為沒有序列號。數(shù)據(jù)恢復(fù)工程師懷疑SAP的注冊文件沒有恢復(fù)出來。重新檢測恢復(fù)過程,排查可能疏忽的步驟,最后查明文件系統(tǒng)的損壞導(dǎo)致某些文件沒有恢復(fù)。重新修復(fù)文件系統(tǒng)&恢復(fù)這些數(shù)據(jù)。啟動SAP正常,SAP使用正常。
6、由用戶方配合,啟動Oracle數(shù)據(jù)庫,啟動SAP,并通過SAP客戶端驗證SAP中所有的數(shù)據(jù)的完整性,經(jīng)過驗證,用戶方確認(rèn)數(shù)據(jù)完整有效,SAP正常使用。本次數(shù)據(jù)恢復(fù)工作完成。
審核編輯 黃宇
-
硬盤
+關(guān)注
關(guān)注
3文章
1268瀏覽量
56973 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
8688瀏覽量
84520 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
505瀏覽量
17183 -
RAID5
+關(guān)注
關(guān)注
0文章
102瀏覽量
12677 -
Oracle
+關(guān)注
關(guān)注
2文章
280瀏覽量
35044
發(fā)布評論請先 登錄
相關(guān)推薦
評論