服務器數據恢復環境:
HP-EVA存儲環境:EVA某型號控制器+EVA擴展柜+FC硬盤。
服務器故障:
EVA存儲中兩塊磁盤掉線導致存儲中某些LUN丟失不可用。
服務器數據恢復過程:
1、首先對故障存儲中所有磁盤做物理故障檢測,經過檢測沒有發現有硬盤存在物理故障。使用壞道檢測工具檢測也沒有發現壞道,磁盤壞道檢測日志部分截圖:
北亞企安數據恢復——EVA存儲數據恢復
2、將故障存儲中所有磁盤以只讀方式做完整鏡像備份,以防后續數據恢復過程中操作不當對原始數據造成二次破壞。部分備份數據如下:
北亞企安數據恢復——EVA存儲數據恢復
3、由于所有磁盤沒有發現物理故障或者壞道,可以判斷硬盤掉線是因為磁盤讀寫不穩定導致的。EVA控制器對磁盤的檢測策略非常嚴格,EVA控制器會認為性能不穩定的磁盤是壞盤,將認為是壞盤的磁盤踢出磁盤組。如果某個LUN的同一個條帶中掉線的磁盤到達極限,這個LUN將不可用,即如果EVA存儲中所有的LUN都包含這些掉線的盤,所有LUN都會受影響,所以兩塊磁盤掉線也會導致整個存儲的LUN都不可用。目前的情況是現存8個LUN,損壞7個LUN,丟失6個LUN,需要恢復存儲中所有LUN的數據。
4、HP-EVA的LUN都是以RAID條目的形式來存儲數據的,EVA將每個磁盤的不同塊組成一個RAID條目,RAID條目的類型可以有很多種。需要分析出組成LUN的RAID條目類型和這個RAID條目是由哪些盤的哪些塊組成。這些信息都存放在LUN_MAP中,每個LUN都有一份LUN_MAP。EVA將LUN_MAP分別存放在不同的磁盤中,使用一個索引來指定其位置。因此去每個磁盤中找到這個指向LUN_MAP的索引就可以找到現存LUN的信息。
5、雖然磁盤中記錄了指向LUN_MAP的索引,但是它只記錄現存的LUN,丟失的LUN是不會被記錄索引的。由于EVA中刪除一個LUN只會清除這個LUN的索引,并不會清除這個LUN的LUN_MAP。所以只需要掃描所有磁盤,找到所有符合LUN_MAP的數據塊,排除現有的LUN_MAP,剩下的LUN_MAP也不一定全是刪除的,也有一些可能是舊的。這種情況下是無法在LUN_MAP中篩選的,只能先將所有LUN_MAP的數據都恢復出來,人工去核對哪些LUN是刪除的。
6、掉線磁盤中存放的是一些舊的數據,在生成數據的時候需要將這些磁盤都排除掉,提取數據之前需要把這些掉線磁盤找到。由于LUN的RAID結構大多都是RAID5,只需要將一個LUN的RAID條目通過RAID5的校驗算法算出校驗值,再和原有的校驗值做比較就可以判斷這個條目中是否有掉線盤。將一個LUN的所有LUN_MAP都校驗一遍就可以知道這個LUN中的哪些RAID條目中有掉線盤,這些RAID條目中都存在的那個盤就一定是掉線盤。排除掉掉線盤并根據LUN_MAP恢復所有LUN的數據即可。
7、北亞企安數據恢復工程師編寫掃描LUN_MAP的程序掃描全部LUN_MAP,結合人工分析獲取到最精確的LUN_MAP。編寫檢測RAID條目的程序檢測所有LUN中掉線的磁盤,結合人工分析排除掉掉線的磁盤。編寫LUN數據恢復程序結合LUN_MAP恢復所有LUN數據。
8、人工核對恢復出來的每個LUN,確認是否和用戶方工程師描述的一致。部分LUN如下:
北亞企安數據恢復——EVA存儲數據恢復
數據驗證:
用戶方工程師對恢復出來的數據進行檢驗,經過反復驗證后確認數據完整可用,本次數據恢復工作完成。
EVA存儲數據安全Tip:
1、經常巡視機房設備,發現報警信息及時處理。
2、操作存儲時要謹慎,避免誤操作導致數據丟失。
3、如果發現EVA控制器部分模塊不穩定,應及時更換。
4、由于EVA存儲故障多是由磁盤不穩定導致的,EVA存儲內的磁盤應該是同一批次的磁盤。因此,沒有掉線的磁盤性能也快到極限,如有條件建議一起更換這批磁盤。
審核編輯:湯梓紅
-
控制器
+關注
關注
112文章
15886瀏覽量
175391 -
硬盤
+關注
關注
3文章
1269瀏覽量
56997 -
服務器
+關注
關注
12文章
8701瀏覽量
84562 -
數據恢復
+關注
關注
10文章
507瀏覽量
17207
發布評論請先 登錄
相關推薦
評論