精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA Ampere架構解析:相比上一代做了哪些提升

工程師鄧生 ? 來源:中關村在線 ? 作者:曲楠 ? 2020-12-11 17:22 ? 次閱讀

持續了一個月的“顯卡發布季”已經告一段落,截止目前NVIDIA發布了GeForce RTX 3060 Ti/3070/3080/3090共4個型號的顯卡,相比上一代顯卡,RTX 30系顯卡再次做到了性能翻倍的神話。

除了性能上的提升,新的NVIDIA Ampere架構還帶來了第二代RT Core和第三代Tensor,雖然RTX 30系顯卡擁有諸多提升,但價格卻與上一代顯卡相同。

在9月2日發布會當天,雖然過程僅有短短的40分鐘,卻震驚了全世界的用戶。

算力提升

下面我們就來看看,“有史以來最偉大性能提升”相比上一代的NVIDIA Turing架構,做了哪些提升。

第一代RTX架構Turing

第二代RTX架構 Ampere

首先來簡單回顧一下在9月2日發布會的PPT上我們都看到了什么,相較于初代的Turing RTX架構,NVIDIA Ampere架構在算力上有著成倍的增長,每個時鐘執行2次著色器運算。

而Turing為1次,著色器性能達到30 TFLOPS單精度性能,而Turing為11 TFLOPS。

NVIDIA Ampere架構翻倍了光線與三角形的相交吞吐量,RT Core達到58 RT TFLOPS,而Turing為34 RT TFLOPS。

另外在全新的Tensor Core中,可自動識別并消除不太重要的DNN權重,處理稀疏網絡的速率是Turing的兩倍,算力高達238 Tensor TFLOPS,而Turing為89 Tensor TFLOPS。

全新的NVIDIA Ampere GPU核心擁有280億個晶體管,628平方毫米的面積,基于三星的8nm NVIDIA定制工藝,來自美光的GDDR6X顯存,以及我們上面說的,三大處理核心均為初代Turing的兩倍速率,構成了有史以來性能最強大的Ampere。

SM單元的改變

而NVIDIA Ampere架構的強大性能并不是NVIDIA一蹴而就,可以說在20系顯卡中所采用的Turing架構功不可沒,下面我們先來看看完整的GA102核心。

完整的GA102 GPU包含7個GPC(圖形處理集群)42個TPC(紋理處理集群)以及84個SM(流處理器)組成。

GPC是占據主導地位的高級模塊,擁有所有的關鍵圖形處理單元,每個GPC包含一個專用光柵引擎。

在新的NVIDIA Ampere架構中,每個GPC還包含了兩個ROP分區,每個分區包含8個ROP單元。下面我們來看看每個SM單元的變化。

在每個SM中,包含四個大的處理分區共128個CUDA核心,4個第三代Tensor Core,1個第二代RT Core,1個256 KB的緩存文件,1個128 KB的L1緩存,這個L1緩存可以根據不同的工作需求來調配緩存,工作效率發揮至最大。

另外大家都知道本次RTX 3080的CUDA數量暴增至8704個,而RTX 3090的CUDA數量更是達到了驚人的10496個。

但是大家要知道專業計算卡Tesla A100的GA100核心,擁有更大的核心面積,更多的晶體管數量,理論上只有8192個CUDA,那RTX 3080又是如何達到這種效果的呢?

其實是因為本次NVIDIA Ampere的SM在Turing基礎上增加了一倍的FP32運算單元,這就使得每個SM的FP32運算單元數量提高了一倍。

我們在發布會中經常聽到性能翻倍的說法,其實是因為本次NVIDIA Ampere的SM在Turing基礎上增加了一倍的FP32運算單元,這就使得每個SM的FP32運算單元數量提高了一倍,同時吞吐量也就變為了一倍。

而通常我們計算顯卡的CUDA數量,并不是把SM中的所有單元加起來計數,而是只統計FP32單元的數量,所以這樣一來,SM中的【FP32 : INT32】 從 1:1 變為 2:1。

如RTX 3080的8704個CUDA,其實它只有4352個INT32單元,但由于內部的FP32數量翻了一倍,所以最終實現了8704這個驚人的數字。

而這樣粗暴的提升CUDA數量對于游戲有幫助嗎?

答案是有,不僅有提升還很大。其實通常在游戲中浮點運算相比整數計算要常用的多,圖形、算法以及各種計算操作中著色器工作負載通常需要混合使用FP32算數指令,而FP32的加速也有助于光線追蹤降噪著色器。

第二代RT Core

在此次的NVIDIA Ampere架構中,NVIDIA官方宣布為第二代RT Core,它和第一代有什么不同呢。

首先要知道RT Core的工作原理是,著色器發出光線追蹤的請求,交給RT Core來處理,它將進行兩種測試,分別為邊界交叉測試(Box Intersection testing)和三角形交叉測試(Triangle Intersection testing)。

基于BVH算法來判斷,如果是方形,那么就返回縮小范圍繼續測試,如果是三角形,則反饋結果進行渲染。

而光線追蹤最耗時的正是求交計算,因此,要提升光線追蹤性能,主要是對兩種求交(BVH/三角形求交)進行加速。

在Turing的RT Core中,可以每個周期完成5次BVH遍歷、4次BVH求交以及一次三角形求交,在第二代RT Core 里,NVIDIA增加了一個新的三角形位置插值模塊以及一個的額外的三角形求交模塊,這樣做的目的是為了提升諸如運動模糊特效時候的光線追蹤性能。

第二代RT Core可以讓光線追蹤與著色同時進行,進行的光線追蹤越多,加速就越快,它將光線相交的處理性能提升了一倍,在渲染有動態模糊的影像時,按照NVIDIA自己的實測,比Turing快8倍。

第三代Tensor Core

除了光線追蹤的強化,Ampere架構的Tensor Core也得到了極大地加強,在第三代Tensor Core中,NVIDIA引入了稀疏化加速,可自動識別并消除不太重要的DNN(深度神經網絡)權重,同時依然能保持不錯的精度。

首先原始的密集矩陣會經過訓練,刪除掉稀疏矩陣,再經過訓練稀疏矩陣,從而實現稀疏優化,進而提高Tensor Core的性能。

所以最終的結果就是Tensor Core在處理稀疏網絡的速率是Turing的兩倍,算力高達238 Tensor TFLOPS,而Turing為89 Tensor TFLOPS。

RTX IO

與此次RTX 30系顯卡一同發布的還有一項新技術——RTX IO。目前很多游戲動輒幾十G甚至百G的安裝空間,對于存儲空間的負擔暫且不提,但存放在硬盤中的數據,如果顯卡想要讀取到,需要先由CPU從硬盤中讀取壓縮過的數據,經過解壓縮再發送到顯存中。

雖然隨著NVMe SSD的推出,讀取速度相較機械硬盤能夠快20倍,但受制于傳統I/O限制,NVMe高達7GB/秒的高速讀寫對于CPU是極大的負擔。

在這個過程中,會占用多個CPU核心,壓力急劇增大,占用較多的內存,而此時其實GPU是處于閑置狀態的。

RTX IO的作用就是越過CPU解壓再傳輸數據這一步,直接從PCIE總線讀取硬盤上經過壓縮的數據,并且完成解壓,降低CPU占用,變向提升了性能。

當然這項技術作為系統底層的運行方式改變,還需要借助微軟發布的DirectStorage來實現,對于目前容量的游戲來說,RTX IO的改善效果有限,但假以時日等游戲容量上百G成為常態的時候,這項技術將會發揮巨大的功效。

最快的顯存

在RTX 3080中,采用了GDDR6X顯存,GDDR6X擁有320bit的位寬以及19Gbps的帶寬速度,與采用GDDR6的Turing相比可提升40%的速度,在相同時間內GDDR6X可以比GDDR6傳輸多2倍的數據。

這對于需要大量數據負載的工作尤為重要,如光線追蹤的游戲、AI學習和8K視頻渲染。

同時搭配新增的HDMI2.1接口,可以支持單線8K的視頻輸出,而上一代HDMI2.0僅支持4K 98Hz的視頻輸出,如果想要連接8K電視,則需要更多的線纜支持。

相信了解RTX 30系顯卡的性能后,會有玩家會問,RTX 20系顯卡如此“短壽”算不算失敗的一代,我認為不算。

Turing為我們開創了光線追蹤和AI學習的新世界,奠定了GPU未來的發展方向,真正意義上實現從性能的堆砌到質的改變。

而Ampere則是站在巨人的肩膀,將上一代的路走的更寬更扎實。

責任編輯:PSY

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    4940

    瀏覽量

    102815
  • 顯卡
    +關注

    關注

    16

    文章

    2423

    瀏覽量

    67464
  • 架構
    +關注

    關注

    1

    文章

    509

    瀏覽量

    25447
  • Ampere
    +關注

    關注

    1

    文章

    64

    瀏覽量

    4533
收藏 人收藏

    評論

    相關推薦

    相比上一代低功耗藍牙芯片,CC2745P到底升級了什么?

    TI最近發布了新一代藍牙芯片CC2745P,那么相對于上一代CC2642芯片,做了哪些升級,在實際應用中有哪些優勢?。CC2745P/CC2642基本參數對比如下:型號CC2745PCC2642
    發表于 11-15 14:11

    capsense第四和第五在感應模式上的具體區別是什么?

    據我所知,第五capsense相比第四將電容(包括自電容+互電容技術)和電感觸摸技術集成到了起,snr信噪比是上一代的十多倍,同時功
    發表于 05-23 06:24

    MediaTek與美團攜手合作打造新一代餐飲系統硬件S4 Pro系列收銀機

    MediaTek 與美團攜手合作,打造新一代餐飲系統硬件 S4 Pro 系列收銀機。該系列收銀機采用 MediaTek 新一代高階物聯網芯片 Genio 510,對比上一代收銀產品性能大幅提升
    的頭像 發表于 05-17 10:09 ?465次閱讀

    步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

    帶寬和1.8TB/s的NVLink帶寬,使處理能力翻倍,大幅增加內存容量和帶寬,為處理大規模人工智能模型和復雜計算提供必要資源。 針對大規模模型如GPT-MoE-1.8T,HGX B200的推理性能比上一代
    發表于 05-13 17:16

    NVIDIA推出兩款基于NVIDIA Ampere架構的全新臺式機GPU

    兩款 NVIDIA Ampere 架構 GPU 為工作站帶來實時光線追蹤功能和生成式 AI 工具支持。
    的頭像 發表于 04-26 11:25 ?588次閱讀

    利用NVIDIA組件提升GPU推理的吞吐

    本實踐中,唯品會 AI 平臺與 NVIDIA 團隊合作,結合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)將推理的稠密網絡和熱 Embedding 全置于 GPU 上進行
    的頭像 發表于 04-20 09:39 ?645次閱讀

    NVIDIA發布兩款新的專業顯卡RTX A1000、RTX A400

    NVIDIA今天發布了兩款新的專業顯卡RTX A1000、RTX A400,從編號就能看出來定位入門級,而且架構并非最新的Ada Lovelace,還是上一代Ampere。
    的頭像 發表于 04-18 11:35 ?1980次閱讀
    <b class='flag-5'>NVIDIA</b>發布兩款新的專業顯卡RTX A1000、RTX A400

    英偉達發布性能大幅提升的新款B200 AI GPU

    英偉達宣稱,B200在性能上比以往最好的GPU快30倍不止。由它構成的服務器集群相比上一代,運算能力飛躍性提升,甚至能使大語言模型的訓練速度翻番。
    的頭像 發表于 03-20 09:37 ?738次閱讀

    全面提升!英飛凌推出新一代碳化硅技術CoolSiC MOSFET G2

    電子發燒友網報道(文/梁浩斌)近日英飛凌推出了CoolSiC MOSFET G2技術,據官方介紹,這是新一代的溝槽柵SiC MOSFET技術,相比上一代產品也就是CoolSiC MOSFET G1有
    的頭像 發表于 03-19 18:13 ?2883次閱讀
    全面<b class='flag-5'>提升</b>!英飛凌推出新<b class='flag-5'>一代</b>碳化硅技術CoolSiC MOSFET G2

    NVIDIA將在今年第二季度發布Blackwell架構的新一代GPU加速器“B100”

    根據各方信息和路線圖,NVIDIA預計會在今年第二季度發布Blackwell架構的新一代GPU加速器“B100”。
    的頭像 發表于 03-04 09:33 ?1251次閱讀
    <b class='flag-5'>NVIDIA</b>將在今年第二季度發布Blackwell<b class='flag-5'>架構</b>的新<b class='flag-5'>一代</b>GPU加速器“B100”

    NVIDIA的Maxwell GPU架構功耗不可思議

    整整10年前的2013年2月19日,NVIDIA正式推出了新一代Maxwell GPU架構,它有著極高的能效,出場方式也非常特別。
    的頭像 發表于 02-19 16:39 ?967次閱讀
    <b class='flag-5'>NVIDIA</b>的Maxwell GPU<b class='flag-5'>架構</b>功耗不可思議

    英偉達Orin 的系統結構解析

    Orin SoC包含了高達170億晶體管,幾乎是Xavier SoC的兩倍,搭載了12個ARM Hercules內核,并集成了NVIDIA一代Ampere架構的GPU,提供了驚人的2
    的頭像 發表于 01-29 12:33 ?2370次閱讀
    英偉達Orin 的系統結構<b class='flag-5'>解析</b>

    AI芯片生態:深度解析與未來展望

    相比上一代裁判Intel而言,實際上Intel設計的游戲規則是分配了很多蛋糕給行業內其他賽道的,而NVidia這種幾乎吃獨食的方式,也給它在各個領域樹立了無數競爭對手。
    發表于 01-03 14:15 ?612次閱讀

    TI 新一代明星CPU

    了全球。今天給大家分享的是TI新一代明星CPU——AM62x,它相比上一代AM335x在工藝、外設、性能等多方面都有很大提升。這里結合米爾電子的“MYC-YM62
    的頭像 發表于 12-07 08:14 ?678次閱讀
    TI 新<b class='flag-5'>一代</b>明星CPU

    龍芯3A6000性能實測:媲美10酷睿i3、同頻超越14酷睿i5

    的實測成績對比,上一代龍芯3A5000作為參照。 和3A5000相比 ,3A6000在SPEC CPU 2006測試中,多核定點提升103%,多核浮點提升83%。單核定點
    發表于 11-29 10:44