99久久国产综合精品无码_国产精品免费观看视频播放_高潮视频一区在线观看_亚洲综合欧美日本另类激情_在线观看?v网站永久免费观看

上文結合論文談一談，三年壽命的GPU [上]說到，電路腐蝕導致橡樹嶺實驗室的GPU壽命只有3年，更換了11,000塊GPU。

早在2015年橡樹嶺實驗室就發表了針對GPU Error的另一篇文章：

[194] Understanding GPU Errors Large-scale HPCSystem and the Implications for System Design and Operation.

194 表示引用數。

這篇文章總結了Titan GPU運行中出現的失敗和教訓。

雖然這篇文章發表于2015年，但是文章中圖片的模糊程度像是1955年。

1 背景介紹

GPU的主要的存儲部件，都使用了SECDEC ECC校驗保護，包括：

device memory

l2/l1cache,instruction cache,data cache, share memory

但是并不是GPU中所有的部件都能被ECC校驗保護比如

logic

queue

thread block threaduler

warp scheduler

instruction dispatch unit

interconnect network

一旦一個部件發生錯誤，那么就可能影響多個線程。

文章總結了GPU經常出現的error以及其影響。

上圖中最上面兩行的Single Bit Error和Double Bit Error后面會縮寫為SBE和DBE。

Stability

首先他們發現GPU發生問題的頻率較低，考慮到共計有18,688塊GPU。

按照GPU的手冊，這個數量的GPU，至少每天會發生兩次failure，但是實際中，每兩天發生一次。

他們也注意到，上圖中的Off the bus, ECC page retirement error和DBE failure是主要導致GPU失敗的問題。

他們也注意到，一小部分的bad GPU重復的發生問題，是拉低MTBF(meantime between failure)的主要原因。

如果可以早發現，那么應當提升GPU穩定運行的時間。

Temporal Locality

研究人員發現，有顯著的一部分GPU failure發生遠早于MTFB。這意味著GPU failure有很強的temporal locality。如下圖所示，并不是均勻分布。

Stressing Testing

研究人員發現，有6塊GPU card造成了總體DBE error中的25%。有一部分GPU可能會多次發生DBE和ECC page retirement問題，應當在早期發現這些GPU卡。通過在進入生產環節之前，進行壓力測試，可以有效避免類似問題。

Temperature

他們發現off the bus和DBE error是與溫度有關，但并不是所有的問題都與溫度有關。

SBE

SBE （Single bit error）, 他們發現98%的SBE問題只發生在10張卡上。

如下圖x軸所示，10張卡占據了整體98%的SBE Error

L2 Cache

899張有問題的卡中，如上文所述，10張卡貢獻了SBE 98%的問題。

這10張卡發生SBE錯誤時，99%都發生在了L2 Cache上，如下圖中間的圖。藍色代表L2Cache發生問題。

而對于其余發生問題，造成了2% SBE問題的卡，96%的問題都發生在了device memory上。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

電路

電路

+關注

關注
172

文章
5846

瀏覽量
171900
存儲

存儲

+關注

關注
13

文章
4261

瀏覽量
85666
gpu

gpu

+關注

關注
28

文章
4700

瀏覽量
128695

原文標題：結合論文談一談，三年壽命的GPU [下]

文章出處：【微信號：處理器與AI芯片，微信公眾號：處理器與AI芯片】歡迎添加關注！文章轉載請注明出處。

等離子的使用壽命是多久？

等離子的使用壽命是多久？答：等離子電視的使用壽命大約為6

發表于 05-24 18:00

電子產品使用壽命元器件使用壽命計算

如題，如何去計算正要研發的一款產品的使用壽命，是不是應該從使用的電子元器件的使用壽命去整體權衡，有沒有什么手冊可以查詢，或者有沒有什么軟件可以輸入所使用的電子元器件，然后能計算出理論上這款產品的使用壽命？

發表于 06-06 16:26

電力電容器的保養及使用壽命

小庫說：電力系統中的問題可不容小覷，日常小問題也不能忽視，今天來說一下電力電容器的保養及使用壽命吧電力電容器保養得好，對其使用壽命的延長和電器的安全運行相當重要。如何對電力電容器進行維護保養

發表于 03-22 14:44

怎么延長電表使用壽命？

如何延長電表使用壽命是個問題？解決問題前，提醒下——請先不要像倒洗澡水一樣丟棄電表！全世界的電力公司利用智能電表和高級計量基礎設施(AMI)實現遠程抄表、遠程連接/斷開、需求/響應以及其他高效運營

發表于 07-24 08:15

溫度探頭的使用壽命

專用的，平常的環境溫度監控用這么高精度的溫度傳感器根本沒有意義，殺雞用了牛刀大材小用。因此溫度傳感器的高精度是相對于需求來講的一個概念，原則是跟溫度采集系統匹配就好。溫度探頭的使用壽命有兩個決定因素

發表于 02-21 11:30

電阻負載使用壽命和危害

　　一般來說，電阻的失效率相對性于別的元器件而言，是較為大低的，因此人們一般評定電阻的使用壽命較為少。可是在高壓高溫的情況下會失效率升高，因此一些情景，人們還是必須細心評定電阻的使用壽命。　　對電阻

發表于 07-03 17:31

如何保證工業的使用壽命更長久

??所有東西都是有使用壽命的，只是時間長短不一樣罷了。工業平板電腦也是一樣，也有著一定的使用壽命，大概在8-10年，但這是正常老化的使用壽命。因為有很多的因素會影響著工業平板電腦的使用壽命

發表于 11-04 16:37 ?735次閱讀

如何延長電池的使用壽命

延長電池的使用壽命,認為應就以下幾點引起維護人員的注意.

發表于 01-23 14:59 ?4692次閱讀

如何延長鋰離子電池的使用壽命

有幾種方法可以保持電池壽命（以充電/放電循環次數計）。換句話說，電池達到其使用壽命之前的使用壽命，而不是該循環充電的使用壽命。

發表于 03-10 17:25 ?3309次閱讀

電容器的使用壽命

很多朋友購物最關心的是商品的使用壽命。世界上沒有什么能長久，貼片電容也是如此。今天，小編將帶你了解電容器的使用壽命。　　標稱最高溫度85℃，在85℃環境溫度下，使用壽命可達1000小時

發表于 06-18 15:57 ?9791次閱讀

會縮短R型變壓器使用壽命的注意事項

任何東西都有它的使用壽命，R型變壓器也是如此。雖然R型變壓器在材料和設計上的使用壽命比普通變壓器長，但一些不正確的使用會影響變壓器的使用壽命。今天，讓我們來談談哪些因素會縮短我們電源變

發表于 12-26 12:10 ?652次閱讀

交叉導軌的使用壽命

交叉導軌的使用壽命

發表于 07-20 17:39 ?968次閱讀

固態電池使用壽命

固態電池的使用壽命是一個受到多方因素影響的復雜問題，以下是對其使用壽命的詳細分析：

發表于 09-15 11:53 ?2354次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

談談GPU的使用壽命

評論

等離子的使用壽命是多久？

電子產品使用壽命元器件使用壽命計算

電子產品的使用壽命，電子元器件的使用壽命

電力電容器的保養及使用壽命

怎么延長電表使用壽命？

溫度探頭的使用壽命

電阻負載使用壽命和危害

如何延長蓄電池的使用壽命？

如何保證工業的使用壽命更長久

如何延長電池的使用壽命

如何延長鋰離子電池的使用壽命

電容器的使用壽命

會縮短R型變壓器使用壽命的注意事項

交叉導軌的使用壽命

固態電池使用壽命