上文結合論文談一談,三年壽命的GPU [上]說到,電路腐蝕導致橡樹嶺實驗室的GPU壽命只有3年,更換了11,000塊GPU。
早在2015年橡樹嶺實驗室就發表了針對GPU Error的另一篇文章:
[194] Understanding GPU Errors Large-scale HPCSystem and the Implications for System Design and Operation.
194 表示引用數。
這篇文章總結了Titan GPU運行中出現的失敗和教訓。
雖然這篇文章發表于2015年,但是文章中圖片的模糊程度像是1955年。
1 背景介紹
GPU的主要的存儲部件,都使用了SECDEC ECC校驗保護,包括:
device memory
l2/l1cache,instruction cache,data cache, share memory
register file
但是并不是GPU中所有的部件都能被ECC校驗保護比如
queue
thread block threaduler
warp scheduler
instruction dispatch unit
interconnect network
一旦一個部件發生錯誤,那么就可能影響多個線程。
文章總結了GPU經常出現的error以及其影響。
上圖中最上面兩行的Single Bit Error和Double Bit Error后面會縮寫為SBE和DBE。
Stability
首先他們發現GPU發生問題的頻率較低,考慮到共計有18,688塊GPU。
按照GPU的手冊,這個數量的GPU,至少每天會發生兩次failure,但是實際中,每兩天發生一次。
他們也注意到,上圖中的Off the bus, ECC page retirement error和DBE failure是主要導致GPU失敗的問題。
他們也注意到,一小部分的bad GPU重復的發生問題,是拉低MTBF(meantime between failure)的主要原因。
如果可以早發現,那么應當提升GPU穩定運行的時間。
Temporal Locality
研究人員發現,有顯著的一部分GPU failure發生遠早于MTFB。 這意味著GPU failure有很強的temporal locality。 如下圖所示,并不是均勻分布。
Stressing Testing
研究人員發現,有6塊GPU card造成了總體DBE error中的25%。 有一部分GPU可能會多次發生DBE和ECC page retirement問題,應當在早期發現這些GPU卡。 通過在進入生產環節之前,進行壓力測試,可以有效避免類似問題。
Temperature
他們發現off the bus和DBE error是與溫度有關,但并不是所有的問題都與溫度有關。
SBE
SBE (Single bit error), 他們發現98%的SBE問題只發生在10張卡上。
如下圖x軸所示,10張卡占據了整體98%的SBE Error
L2 Cache
899張有問題的卡中,如上文所述,10張卡貢獻了SBE 98%的問題。
這10張卡發生SBE錯誤時,99%都發生在了L2 Cache上,如下圖中間的圖。藍色代表L2Cache發生問題。
而對于其余發生問題,造成了2% SBE問題的卡,96%的問題都發生在了device memory上。
-
電路
+關注
關注
172文章
5846瀏覽量
171900 -
存儲
+關注
關注
13文章
4261瀏覽量
85666 -
gpu
+關注
關注
28文章
4700瀏覽量
128695
原文標題:結合論文談一談,三年壽命的GPU [下]
文章出處:【微信號:處理器與AI芯片,微信公眾號:處理器與AI芯片】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論