服務(wù)器存儲(chǔ)數(shù)據(jù)恢復(fù)環(huán)境:
某品牌MSA2000FC存儲(chǔ)中有一組由7塊盤組建的RAID5陣列,另外還有1塊硬盤作為熱備盤使用。
基于RAID5陣列劃分的幾個(gè)LUN分配給小機(jī)使用,存儲(chǔ)空間通過(guò)LVM管理,重要數(shù)據(jù)為Oracle數(shù)據(jù)庫(kù)及OA服務(wù)端。
服務(wù)器存儲(chǔ)故障:
RAID5陣列中2塊硬盤離線,唯一的熱備盤成功激活,RAID5陣列還是變得不可用,上層LUN無(wú)法使用。
服務(wù)器存儲(chǔ)數(shù)據(jù)恢復(fù)過(guò)程:
1、將故障存儲(chǔ)中所有磁盤標(biāo)記后取出,由硬件工程師對(duì)所有磁盤做物理故障檢測(cè),檢測(cè)后沒(méi)有發(fā)現(xiàn)有磁盤存在物理故障,都可以正常讀取。以只讀方式將所有磁盤進(jìn)行扇區(qū)級(jí)全盤鏡像,鏡像過(guò)程中沒(méi)有發(fā)現(xiàn)有磁盤存在壞道。
北亞企安數(shù)據(jù)恢復(fù)—vxfs文件系統(tǒng)數(shù)據(jù)恢復(fù)
2、由于所有磁盤經(jīng)過(guò)檢測(cè)都不存在物理故障或者壞道,基本上可以判斷磁盤掉線的是磁盤讀寫不穩(wěn)定造成的。故障存儲(chǔ)的控制器通常會(huì)將某些性能不穩(wěn)定的磁盤識(shí)別為壞盤,并踢出RAID。而一旦RAID中掉線的盤數(shù)達(dá)到該RAID級(jí)別允許掉盤的極限,這個(gè)RAID將變得不可用,上層基于RAID的LUN也無(wú)法正常使用。
基于鏡像文件分析所有磁盤底層數(shù)據(jù),獲取到重組raid所需信息(RAID級(jí)別,條帶規(guī)則,條帶大小,校驗(yàn)方向,META區(qū)域等)并找到熱備盤和2塊掉線硬盤的掉線順序,然后根據(jù)這些信息重組RAID。
3、raid重組完成后分析LUN在RAID中的分配情況,以及LUN分配的數(shù)據(jù)塊MAP,將每一個(gè)LUN的數(shù)據(jù)塊分布MAP提取出來(lái)。北亞企安數(shù)據(jù)恢復(fù)工程師編寫程序解析所有LUN的數(shù)據(jù)MAP,然后根據(jù)數(shù)據(jù)MAP導(dǎo)出所有LUN的數(shù)據(jù)。
北亞企安數(shù)據(jù)恢復(fù)—vxfs文件系統(tǒng)數(shù)據(jù)恢復(fù)
4、分析所有LUN,發(fā)現(xiàn)所有LUN中均包含LVM邏輯卷信息。嘗試解析每個(gè)LUN中的LVM信息,一共發(fā)現(xiàn)三套LVM:第一個(gè)LVM中劃分了一個(gè)LV,存放OA服務(wù)器端的數(shù)據(jù);第二個(gè)LVM中也劃分了一個(gè)LV,里面存放臨時(shí)備份數(shù)據(jù);剩下幾個(gè)LUN組成一個(gè)LVM,也劃分了一個(gè)LV,里面存放Oracle數(shù)據(jù)庫(kù)文件。北亞企安數(shù)據(jù)恢復(fù)工程師編寫解釋LVM的程序,將每套LVM中的LV卷都解釋出來(lái),但是解釋過(guò)程中出現(xiàn)錯(cuò)誤。
5、分析程序報(bào)錯(cuò)的原因,由開(kāi)發(fā)工程師debug程序出錯(cuò)的位置。文件系統(tǒng)工程師檢測(cè)恢復(fù)出來(lái)的LUN,檢測(cè)LVM邏輯卷的信息是否損壞。經(jīng)過(guò)檢測(cè),發(fā)現(xiàn)LVM信息確實(shí)因?yàn)榇鎯?chǔ)癱瘓而損壞。嘗試人工修復(fù)損壞的區(qū)域,并同步修改程序,然后重新解析LVM邏輯卷。
6、搭建環(huán)境,將解釋出來(lái)的邏輯卷映射到小機(jī),并嘗試掛載文件系統(tǒng),結(jié)果文件系統(tǒng)掛載出錯(cuò)。嘗試使用“fsck –F vxfs” 命令修復(fù)vxfs文件系統(tǒng),修復(fù)后還是無(wú)法掛載。數(shù)據(jù)恢復(fù)工程師懷疑vxfs文件系統(tǒng)的元數(shù)據(jù)被破壞,需要修復(fù)。
7、分析解析出來(lái)的LV,根據(jù)VXFS文件系統(tǒng)的底層結(jié)構(gòu)校驗(yàn)此文件系統(tǒng)的完整性。經(jīng)過(guò)分析發(fā)現(xiàn)底層VXFS文件系統(tǒng)果然有問(wèn)題,部分文件系統(tǒng)元文件損壞。人工修復(fù)這些損壞的元文件,保證VXFS文件系統(tǒng)能夠正常解析。將修復(fù)好的邏輯卷掛載到小機(jī)上,并嘗試掛載文件系統(tǒng)。這回沒(méi)有報(bào)錯(cuò),成功掛載。
8、在小機(jī)上掛載上文件系統(tǒng)后,將所有用戶數(shù)據(jù)備份至指定空間。
北亞企安數(shù)據(jù)恢復(fù)—vxfs文件系統(tǒng)數(shù)據(jù)恢復(fù)
9、使用Oracle數(shù)據(jù)庫(kù)文件檢測(cè)工具“dbv”檢測(cè)每個(gè)數(shù)據(jù)庫(kù)文件的完整性,沒(méi)有發(fā)現(xiàn)錯(cuò)誤。使用北亞企安自主開(kāi)發(fā)的Oracle數(shù)據(jù)庫(kù)檢測(cè)工具檢測(cè),發(fā)現(xiàn)部分?jǐn)?shù)據(jù)庫(kù)文件和日志文件校驗(yàn)不一致。修復(fù)此類文件并再校驗(yàn),直到所有文件校驗(yàn)均通過(guò)。
10、將恢復(fù)出來(lái)的Oracle數(shù)據(jù)庫(kù)附加到原始生產(chǎn)環(huán)境的小機(jī)中,嘗試啟動(dòng)Oracle數(shù)據(jù)庫(kù),Oracle數(shù)據(jù)庫(kù)啟動(dòng)成功。
北亞企安數(shù)據(jù)恢復(fù)—vxfs文件系統(tǒng)數(shù)據(jù)恢復(fù)
11、在用戶方的配合下,啟動(dòng)Oracle數(shù)據(jù)庫(kù)和OA服務(wù)端。在本地電腦上安裝OA客戶端,通過(guò)OA客戶端驗(yàn)證最新的數(shù)據(jù)記錄以及歷史數(shù)據(jù)記錄,并且安排不同部門工作人員進(jìn)行遠(yuǎn)程驗(yàn)證。經(jīng)過(guò)仔細(xì)驗(yàn)證,用戶方確認(rèn)數(shù)據(jù)完整可用,認(rèn)可數(shù)據(jù)恢復(fù)結(jié)果。
審核編輯 黃宇
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
9021瀏覽量
85184 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
549瀏覽量
17390 -
RAID5
+關(guān)注
關(guān)注
0文章
112瀏覽量
12705
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論