來源:硬件世界
一、前言:RTX 3080的到來 和說好的完全不一樣
3D圖形卡領(lǐng)域的第一次革命是1999年NVIDIA公司GeForce 256,它集成的T&L技術(shù)(硬件光影轉(zhuǎn)換),將光影處理從CPU中接手過來,解放了CPU的同時也極大的提高了游戲的性能以及畫面的真實性。
T&L技術(shù)之后3D圖形技術(shù)的另一次飛躍則是2006年的基于統(tǒng)一渲染構(gòu)架的DX10。它將此前的Vertex Shader(頂點著色器)和Pixel Shader(像素著色器)統(tǒng)一為streaming processor(流處理器),自此之后設(shè)計的GPU都不會再開辟獨立的管線,而是所有的流處理器運(yùn)算單元都可以任意處理任何一種Shader運(yùn)算,使得GPU的運(yùn)算效率得到了成倍的提升。
爾后10年,GPU領(lǐng)域沒有突破性的技術(shù)出現(xiàn),DX12屬于雷聲大雨點小,對性能的提升并沒有想象中的那么美好,Physx則是曲高和寡。直到2018年8月,實時光線追蹤技術(shù)的出現(xiàn),將3D游戲的畫面推向了一個新的高度,玩家第一次在游戲中見到了如果科幻電影般的科幻電影般的光影世界。
圖靈GPU發(fā)布之后,NVIDIA的市值一路飆升,甚至超越了Intel。財大氣粗的老黃沒有讓我們等太久,僅僅二年的時間,NVIDIA再一次革新了GPU構(gòu)架。2020年9月4日發(fā)布的基于新一代Ampere安培架構(gòu)的GeForce RTX 30系列顯卡統(tǒng)一了INT32與FP32單元,原本只能做整數(shù)運(yùn)算的INT32單元現(xiàn)在既能做整數(shù)運(yùn)算,也能做單精度浮點運(yùn)算。
這一項技術(shù)革新將傳統(tǒng)意義上的流處理器數(shù)量直接翻倍,同時GPU的浮點運(yùn)算能力也提升了一倍。于是我們就看到了RTX 3080的流處理器數(shù)量直接從RTX 2080的2954個暴增到了8704個,恍然間仿佛回到了8800GTX時代。
完整的GA102共有7組GPC,每組GPC有12組SM單元外加16組ROPs單元,總計是84組SM單元與112個ROPs單元。
RTX 30系列顯卡視乎規(guī)格不同啟用的SM單元總數(shù)不同,RTX 3090是82組SM單元與112個ROPs單元,RTX 3080是68組SM單元與96個ROPs,RTX 3070是46組以及64個ROPs。
。
這是GA102核心的SM單元構(gòu)架,每個SM單元有64個INT32整數(shù)核心、64個FP32單精度浮點核心、4個第三代TENSOR COREs以及以及1個第二代RT CORE。
這里的INT32單元可以根據(jù)需求進(jìn)行單精度整數(shù)或者浮點運(yùn)算,也就是說理論上一個SM單元可以擁有高達(dá)128個FP32單元。
融合了一級緩存與共享緩存,每SM單元中緩存總?cè)萘繛?28KB,可以按需靈活分配給一級緩存與共享緩存(Shared Memory),可以是64KB+32KB的組合,也可以是32KB+64KB的組合。
此次NVIDID一共發(fā)布了3款GA10X核心的顯卡型號。
RTX 3090:擁有7組GPC,82組SM單元共計10496個流處理器、112個ROPs、328個紋理單元、328個第三代Tensor Cores、82個第二代RT Cores。搭配24GB GDDR6X顯存,顯存頻率19.5GHz、
位寬384Bit,帶寬936GB/s。相比于Titan RTX快了50%,9月24日上市,售價11999元。
RTX 3080:擁有6組GPC,68組SM單元共計8704個流處理器、96個ROPs、272個紋理單元、272個第三代Tensor Cores、68個第二代RT Cores。搭配10GB GDDR6X顯存,顯存頻率19GHz、
位寬320Bit,帶寬760GB/s。綜合性能是RTX 2080的二倍,9月17日上市,售價5499元。
RTX 3070:GA104核心,擁有6組GPC,46組SM單元共計5888個流處理器、96個ROPs、184個紋理單元、184個第三代Tensor Cores、46個第二代RT Cores。搭配8GB GDDR6顯存,顯存頻率14GHz、位寬256Bit,帶寬448GB/s。綜合性能與RTX 2080 Ti但價格只有一半,10月份上市,售價3899元。
RTX 3080的詳細(xì)規(guī)格如下(TDP應(yīng)為320W):
二、安培構(gòu)架解析:流處理器數(shù)量翻倍是否言過其實?
在圖靈誕生之前,GPU核心中并沒有單獨的INT32單元,從Kepler到Maxwell到再到Pascal,每一個CUDA核心都就是由FP32單元構(gòu)成。
而Turing每一個CUDA核心除了有一個FP32的單精度浮點單元之外,還有對應(yīng)有一個INT32的單精度整數(shù)單元。
在現(xiàn)代游戲(例如古墓麗影:暗影)中,每100條指令操作中有62條是浮點指令操作,38條是整數(shù)指令操作。以往GPU在只能單獨、交替的執(zhí)行浮點和整數(shù)運(yùn)算,圖靈構(gòu)架加入了整數(shù)運(yùn)算單元之后,可以與浮點單元一起并發(fā)執(zhí)行,可以將流處理器的執(zhí)行效率提升36%。
不過在游戲中整數(shù)運(yùn)算量遠(yuǎn)遠(yuǎn)低于浮點運(yùn)算量(38:62),因此經(jīng)常會有大量的INT32單元被閑置。為了解決這個問題,提升INT32單元的利用率,NVIDIA改進(jìn)了INT32單元,使之不僅可以運(yùn)行整數(shù)運(yùn)算,也能進(jìn)行單精度浮點運(yùn)算。
如上圖所示,在安培構(gòu)架中,每個SM單元中的64個FP32單元依舊保留,而INT32單元則被賦予了更多的使命,它不僅能進(jìn)行整數(shù)運(yùn)算,但是在不需要進(jìn)行整數(shù)運(yùn)算的情況下,它也能和FP32一樣進(jìn)行單精度浮點運(yùn)算。
也就是說,每個SM單元可以同時執(zhí)行4x(16FP32+16FP32)=128個FP32運(yùn)算,或者4x(16FP32+16INT32)=64個FP32+64個INT32運(yùn)算。
在理想的情況將下,一個SM單元中的64個INT單元全部都做單精度浮點運(yùn)算的話,那么流處理器(FP32單元)數(shù)量將會直接變成128個。相對而言,圖靈構(gòu)架一個SM單元只有固定的64個流處理器。
RTX 3080擁有68個SM單元,理論上能達(dá)到8704個流處理器的規(guī)模。很多同學(xué)可能懷疑NVIDIA在騙我們,這些流處理器是否能夠同時工作還是個問號!
下面我們使用AIDA64 GPGPU進(jìn)行驗證,看看RTX 3080的8704個流處理器是否言過其實。
如果依據(jù)1710MHz的頻率和8704個FP32單元來計算RTX 3080的理論浮點性能應(yīng)當(dāng)是29767GFLOPS。
實測RTX 3080的單精度浮點運(yùn)算性能是29117GFLOPS,略低于理論值。這是因為320W TDP的的限制,RTX 3080在進(jìn)行GPGPU單精度浮點測試時,GPU核心的滿載頻率只有1672MHz并沒有達(dá)到1710MHz。
不過從這里可以看出,RTX 3080的的確確擁有8704個流處理器(FP32單元),現(xiàn)在沒有什么好質(zhì)疑的了。
實測RTX 2080 Ti的單精度浮點運(yùn)算性能是16626GFLOPS,接近RTX 3080的6成。
實際上,在進(jìn)行GPGPU測試時,RTX 2080 Ti的運(yùn)行頻率達(dá)到了1910MHz,所以雖然流處理器數(shù)量只有一半,但是浮點性能卻能達(dá)到6成。
RTX 2080在進(jìn)行GPGPU測試時,運(yùn)行頻率更是高達(dá)1938MHz,單精度浮點運(yùn)算性能達(dá)到了11416GFLOPS,約為RTX 3080的40%。要知道RTX 2080 2944個流處理器只相當(dāng)于RTX 3080 8704個流處理器的1/3。
所以現(xiàn)在大家應(yīng)該知道了,RTX 3080 TDP如此之高的原因!即便是320W的TDP,也難以滿足讓8704個流處理器以較高的頻率運(yùn)行。
三、安培構(gòu)架解析:RTX IO技術(shù)實現(xiàn)“秒進(jìn)游戲”
很早以前,當(dāng)筆者還在用機(jī)械硬盤的時候,想象著如果硬盤能像內(nèi)存一樣快,就可以秒進(jìn)游戲,不用再等待漫長的加載了!
索尼新一代的次世代主機(jī)PS5有一個賣點,憑借著讀取速度高達(dá)5.5GB/s的高性能SSD,可以實現(xiàn)“秒進(jìn)游戲功能”。
不過事實上,這里的秒進(jìn)游戲是有限制的,它只是進(jìn)入了游戲的菜單界面,并沒有進(jìn)入能夠控制人物行動的游戲湖面。并且即便PS5的SSD讀取速度再翻倍增長到10GB/s,也無法實現(xiàn)秒進(jìn)游戲畫面。
傳統(tǒng)的游戲數(shù)據(jù),首先要從磁盤讀取到內(nèi)存。然而游戲的數(shù)據(jù)包是無法直接使用的,CPU要使用的時候需要將數(shù)據(jù)解包,特別是GPU要使用的時候,數(shù)據(jù)通過CPU解包之后再經(jīng)由PCIe總線傳遞給顯存。
當(dāng)SSD速度足夠快的時候,CPU解包速度就會成為決定了游戲加載時間的長短。然而CPU只是一塊通用處理器,進(jìn)行專業(yè)運(yùn)算時的性能極其有限。市面上常見的MMORPG以及電子競技游戲,最強(qiáng)的i9-10900K處理器大概要經(jīng)過10秒的運(yùn)算才能完成全部的解包工作。
也就是說,即便你用超大容量DDR4內(nèi)存做成虛擬硬盤,將游戲放入內(nèi)存中,也需要10秒左右的時間才能完全進(jìn)去游戲。
NVIDIA的RTX IO技術(shù),可以讓游戲在加載時完全規(guī)避CPU,直接從SSD寫入到GPU的顯存中。GPU的浮點性能數(shù)十倍于CPU,可以瞬間完成數(shù)據(jù)的解包工作。
因此當(dāng)你配備了足夠快速的SSD(比如Intel 905P),就能實現(xiàn)秒進(jìn)游戲的功能,從此不用再等待漫長的游戲加載過程。
RTX IO技術(shù)需要DirectStorage API的支持,根據(jù)微軟的計劃,按照微軟的說明,DirectStorage在2021年會向游戲開發(fā)商遞交開發(fā)預(yù)覽,正式使用可能需要等到2022年。
四、安培構(gòu)架解析:新的ROP單元、NVIDIA Reflex 、NVIDIA Broadcast
1、ROPs單元的改變
也許很多同學(xué)不知道,以往的NVDIA GPU,ROPs單元一直都是被集成在內(nèi)存控制器中!
也就是說同樣一顆GPU,如果位寬不變,只是閹割流處理器的話,它的ROPs數(shù)量是不會變的。例如GTX 1080與GTX 1070同為GP104核心,位寬都是256Bit,所以他們的ROPs數(shù)量都是64個。幾遍是GTX 1080有2560個流處理器,GTX 1070被閹割到了1920個也不會對ROPs數(shù)量產(chǎn)生影響。
而同一顆GPU核心,如果閹割位寬的話,那么它的ROPs數(shù)量相應(yīng)的變少!例如GTX 1080 Ti與TITAN X Pascal同為GP102核心,TITAN X Pascal擁有完整的384Bit位寬,因而它的ROPs數(shù)量也是完整的96個。而GTX 1080 Ti由于顯存位寬被閹割到了352Bit,ROPs數(shù)量也就減少到了88個。
從GA10x GPU開始,ROP單元正式成為了GPC的一部分,用與匹配流處理器,以改善抗鋸齒性能。完整的GA102核心有7個GPC,每個GPC內(nèi)置16個GPC,共112個ROPs。
2、NVIDIA Reflex
游戲玩家,特別是網(wǎng)絡(luò)游戲?qū)ρ舆t很敏感,這個延遲不僅僅跟網(wǎng)絡(luò)、顯卡性能有關(guān),還跟系統(tǒng)有關(guān),包括鍵鼠的輸入延遲等。
NVIDIA Reflex就是一款可以降低延遲的工具,在支持該技術(shù)的游戲中,如《Apex英雄》、《使命召喚:戰(zhàn)區(qū)》、《堡壘之夜》、《VALORANT》等熱門電競游戲,可將延遲降低50%。
此外,NVIDIA Reflex未來還會有個Reflex延遲分析器(Reflex Latency Analyzer),它可監(jiān)測鼠標(biāo)點擊,并測量屏幕上相應(yīng)像素變化所需的時間,比如槍焰閃光,效果堪比超過7000美元的專用高速攝像機(jī)和設(shè)備。
3、NVIDIA Broadcast:游戲直播助手
如今游戲跟直播息息相關(guān),NVIDIA Broadcast軟件可以讓游戲主播更加輕松省力,它通過顯卡的AI加速實現(xiàn)了多種功能,比如噪音消除、虛擬背景、自動框顯,從而提升麥克風(fēng)和網(wǎng)絡(luò)攝像頭的效果。
五、圖賞:有史以來做工最好的公版顯卡 很完美的風(fēng)道設(shè)計
包裝盒的風(fēng)格從圖靈時代的綠黑配色變成了純黑色。
打開包裝盒除了顯卡之外,還附贈一條雙8Pin轉(zhuǎn)12Pin的轉(zhuǎn)接線。
顯卡的正面有一個風(fēng)扇,吹出的熱風(fēng)是直接從I/O接口處排出,可以極大程度上緩解機(jī)箱的散熱壓力。
背面也有一個風(fēng)扇,風(fēng)是直接往機(jī)箱下面吹,并不是像部分玩家想象的那樣將熱風(fēng)吹向了CPU。
由于沒有PCB的阻擋,即便是在較低的轉(zhuǎn)速下,風(fēng)扇也能夠更加輕松的吹透散熱鰭片。
頂部視角圖,中間有一個
底部視角圖。
需要注意的是,雖然頂部與頂部看起來有鰭片暴露在外,但實際上這 2處并不會出風(fēng),也就是不會有熱量排出。可以很好的保護(hù)顯卡下面的NVMe SSD,不至于溫度過高。
取消了Type-C接口,只有3個DP 1.4與一個HDMI 2.1接口。
背面的風(fēng)扇。
12Pin接口特寫。
拆下來的散熱器。
非常奇特的PCB設(shè)計。18相供電電路設(shè)計,另外還有2個空焊位,應(yīng)該會在RTX 3090補(bǔ)齊,屆時會有20相供電。
PCB板的背面,由于空間原因,供電電容被放在了這一面。
NVIDIA非常激進(jìn),每一相供電竟然配備了3個高成本的鉭電容。
GA102-200-KD-A1核心,8704個流處理器,核心面積628.4mm2,擁有283億個晶體管。
供電電路特寫。
美光的GDDR6X顯存,一共有10顆,單顆容量1GB,總?cè)萘?0GB。頻率19GHz,位寬320Bit,顯存帶寬760GB/s。
12Pin供電接口填寫。
金屬背板。
PCB背面的鉭電容。
散熱底座周圍都是大面積的均熱板,GDDR6X顯存也有導(dǎo)熱背貼覆蓋,顯存的溫度也能得到很高的控制。
六、測試平臺:全核5.2GHz的i9-10900K + 皇家戟4000MHz C15 32GB內(nèi)存
在i9-10900K與銳龍9 3900X之間糾結(jié)了一下,最終還是選擇了i9-10900K處理器。為了降低CPU的瓶頸效應(yīng),我們將i9-10900K的核心頻率超頻到了5.2GHz,Ring頻率超頻到了4.8GHz。
主板用的是ROG MAXIMUS XII EXTREME。這款主板采用16+0供電,16相供電全部給了CPU核心,0相給核顯。MosFET升級為TDA21490,這是目前最高規(guī)格的一體化MOSFET,導(dǎo)通電流也從55A提高到了90A,可以輕易提供超過1000W的輸出功率。
芝奇皇家戟F4-4000C15D 8GBx4套裝,不僅擁有4000MHz的頻率,15-16-16-36的時序也是低的嚇人,比絕大部分3000MHz頻率的內(nèi)存都要低,不過默認(rèn)電壓1.5V也算是比較高的了。
長江存儲致鈦PC005 Active 512GB SSD,順序讀寫速度分別為3500MB/s,2900MB/s。不依賴模擬SLC緩存也能保持550MB/s的穩(wěn)定寫入速度,同時壽命遠(yuǎn)遠(yuǎn)高于市面上絕大多數(shù)TLC SSD。
酷冷至尊P360 ARGB水冷散熱器,應(yīng)該是市面上顏值最高也最易安裝的水冷散熱器,可以很輕松的壓制5.2GHz的i9-10900K處理器。
華碩玩家國度PG27UQ ROG 27英寸IPS電競顯示器。
4K UHD(3840*2160)分辨率、4ms響應(yīng)時間、144Hz刷新率、G-Sync 技術(shù)、IPS+量子點面板、10bit色彩、DisPlay HDR1000認(rèn)證。依舊是目前市面上頂級的電競顯示器。
七、理論性能測試:3DMark Fire Strike Extreme首破2萬 默頻可達(dá)2025MHz
1、3DMark Time Spy
在2K分辨率3DMark Time Spy測試中,RTX 3080圖形分?jǐn)?shù)達(dá)到了17698分,核心溫度最高76℃,核心運(yùn)行最高頻率為1965MHz,最高風(fēng)扇轉(zhuǎn)速1787RPM,最高功耗329W。
在4K分辨率3DMark Time Spy Extreme測試中,RTX 3080圖形分?jǐn)?shù)達(dá)到了8876分,核心溫度最高76℃,核心運(yùn)行最高頻率為1750MHz,最高風(fēng)扇轉(zhuǎn)速1810RPM,最高功耗335W。
從3DMark Time Spy的成績來看,RTX 3080在2K分辨率下的分?jǐn)?shù)比RTX 2080高了將近7000分,領(lǐng)先幅度為62%;與RTX 2080 Ti相比,也能多出3630分,領(lǐng)先幅度幅度為26%。
在4K分辨率下,RTX 3080比RTX 2080多了3787分,領(lǐng)先幅度來帶了74%;相比RTX 2080 Ti也有2249分的優(yōu)勢,強(qiáng)了34%左右。
2、3DMark
在2K分辨率3DMark Fire Strike Extreme測試中,RTX 3080圖形分?jǐn)?shù)達(dá)到了20979分,核心溫度最高68℃,核心運(yùn)行最高頻率為2025MHz,最高風(fēng)扇轉(zhuǎn)速1323RPM,最高功耗333W。
在4K分辨率3DMark Fire Strike Ultra測試中,RTX 3080圖形分?jǐn)?shù)達(dá)到了10785分,核心溫度最高63℃,核心運(yùn)行最高頻率為1995MHz,最高風(fēng)扇轉(zhuǎn)速1521RPM,最高功耗322W。
RTX 3080是第一張3DMark Fire Strike Extreme圖形分?jǐn)?shù)破2萬的顯卡。在2K分辨率下,它比RTX 2080多了7897分,領(lǐng)先幅度為60%;比RTX 2080 Ti則要強(qiáng)了29%。
到了4K分辨率下,RTX 3080能比RTX 2080多4403分,領(lǐng)先優(yōu)勢為70%,同時比RTX 2080 Ti也要快了34%。
八、1080P分辨率測試:5.2GHz的i9-10900K也無法發(fā)揮它的全部性能
1、APEX英雄
《Apex英雄》沒有提供測試程序,為了減少測試時變量的干擾,我們選取在訓(xùn)練場進(jìn)行幀數(shù)測試,測試時手動調(diào)整為最高畫質(zhì)。我們在訓(xùn)練場錄得的幀率與實戰(zhàn)時的幀率較為接近,因此有一定的參考價值。
在《APEX》中,RTX 3080的幀率達(dá)到了284FPS,比RTX 2080 Ti高出51幀,比RTX 2080高了104幀。
2、使命召喚16:戰(zhàn)區(qū)
《使命召喚:戰(zhàn)區(qū)》在1080P分辨率最高畫質(zhì)下,RTX 3080能輕松跑出221FPS,比RTX 2080 Ti高了48幀,比RTX 2080多出64幀。
3、GTA V
以下是我們在《GTA V》中的參數(shù)設(shè)置,1080P分辨率下,顯存占用為3442MB。另外,在進(jìn)階影像設(shè)定中,所有設(shè)置項都調(diào)到了最高值。
《GTA V》在1080P分辨率下處理器性能是最大的瓶頸,即便如此,RTX 3080也跑出了139FPS的幀率,比RTX 2080 Ti高5幀,比RTX 2080高了11幀。
4、刺客信條:奧德賽
RTX 3080在《刺客信條:奧德賽》1080P分辨率下跑出了超過百幀的成績,比RTX 2080 Ti高了11幀,比RTX 2080高了22幀。
5、德軍總部:新血脈
RTX 3080在《德軍總部:新血脈》中跑出了驚人的351FPS的幀率,比RTX 2080 Ti多了65幀,比RTX 2080多了113幀。
6、地平線:零之曙光
在1080P分辨率下,RTX 3080的幀率是135FPS,比RTX 2080 Ti多了16幀,比RTX 2080多了37幀。
7、孤島驚魂5
在i9-10900K的強(qiáng)力支援下,RTX 3080的《孤島驚魂5》1080P幀率也有183FPS,不過這個游戲在1080P分辨率時過于需求CPU,因此并沒有和RTX 2080 Ti拉開多少差距,只有2幀的優(yōu)勢,不過比RTX 2080則多了29幀。
8、古墓麗影:暗影
即便是超頻到5.2GHz的i9-10900K處理器,在將近一半的場景中渲染耗時都高于RTX 3080。
《古墓麗影:暗影》同樣也是一個極度需求CPU性能的游戲,雖然i9-10900K依舊是瓶頸所在,但RTX 3080還是跑出了193FPS的恐怖幀率,比RTX 2080 Ti多了30幀,比RTX 2080多了56幀。
10、絕地求生
突破300幀了。
有了RTX 3080,即便是240Hz的顯示器也能被喂飽。RTX 3080的幀率達(dá)到了316FPS,比RTX 2080 Ti多了47幀,比RTX 2080多了115幀。
10、微軟模擬飛行2020
顯卡殺手級的游戲!我們選擇的是訓(xùn)練場景。
在《微軟模擬飛行2020》中,RTX 3080的幀率為116FPS,比RTX 2080 Ti多了21幀,超出RTX 2080有37幀。
11、死亡擱淺
在這個游戲中,RTX 3080跑出了217FPS的幀率,比RTX 2080 Ti多了31幀,比RTX 2080要多60幀。
12、巫師3
原本《巫師3》是一款非常消耗GPU的游戲,然后RTX 3080實在太強(qiáng),導(dǎo)致i9-10900K第一次在這款游戲中成為了瓶頸,跑出了158FPS,比RTX 2080 Ti高了16幀,比RTX 2080高了41幀。
13、無主之地3
在《無主之地3》中,RTX 3080的幀率為119FPS,比RTX 2080 Ti剛好多了10幀,比RTX 2080多了35幀。
14、戰(zhàn)地5
《戰(zhàn)地5》鎖死了200幀,于是RTX 3080就跑出了200幀,比RTX 2080 Ti高了13幀,比RTX 2080多了47幀。
15、戰(zhàn)爭機(jī)器5
1080P分辨率下,RTX 3080在《戰(zhàn)爭機(jī)器5》中能跑出168FPS,比RTX 2080 Ti高了32幀,比RTX 2080多了47幀。
對于頂級新卡而言,1080P分辨率下CPU的性能是系統(tǒng)瓶頸所在,不過在這個分辨率下RTX 3080依然能比RTX 2080強(qiáng)38,比RTX 2080 Ti快16%。
九、2K分辨率測試
本來2K分辨率測試不在計劃之內(nèi),考慮到現(xiàn)在不少玩家都用上2K分辨率顯示器,臨時決定將此分辨率加入測試。
十、4K分辨率測試:比RTX 2080 Ti強(qiáng)30%
1、APEX英雄
在4K分辨率下,RTX 3080的幀率依然突破了百幀,比RTX 2080 Ti多了32幀,比RTX 2080多了49幀。
2、使命召喚16:戰(zhàn)區(qū)
在《使命召喚:戰(zhàn)區(qū)》中,RTX 3080依然突破百幀,比RTX 2080 Ti多了29幀,領(lǐng)先幅度為40%,比RTX 2080高出43幀,領(lǐng)先幅度超過了70%。
3、GTA V
在4K分辨率下,《GTA V》才能發(fā)揮出顯卡的真正性能,RTX 3080跑出了93幀,比RTX 2080 Ti多了21幀,領(lǐng)先幅度為29%;相比RTX 2080則多出了35幀,領(lǐng)先幅度為60%。
4、刺客信條:奧德賽
《刺客信條:奧德賽》這個游戲不虧是顯卡殺手,在4K分辨率下,RTX 3080也這是剛好過了60幀,比RTX 2080 Ti多了13幀,領(lǐng)先幅度為25%;相比RTX 2080則能多出22幀,領(lǐng)先幅度為52%。
5、德軍總部:新血脈
RTX 3080在《德軍總部:新血脈》中跑出了150FPS的成績,比RTX 2080 Ti多了30幀,比RTX 2080多了55幀。
6、地平線:零之曙光
在《地平線:零之曙光》這個游戲中,RTX 3080的幀率為69FPS,比RTX 2080 Ti高了15幀,領(lǐng)先幅度為26%;和RTX 2080相比,能多出26幀,領(lǐng)先幅度為60%。
7、孤島驚魂5
在《孤島驚魂5》中,RTX 3080的幀率為98FPS,比RTX 2080 Ti多了21幀,領(lǐng)先優(yōu)勢為27%;比RTX 2080則多了38幀,領(lǐng)先優(yōu)勢為63%。
8、古墓麗影:暗影
在《古墓麗影:暗影》中,RTX 3080的幀率為83FPS,比RTX 2080 Ti多了20幀,領(lǐng)先幅度為32%;相比RTX 2080則多了34幀,領(lǐng)先幅度接近70%。
9、絕地求生
《絕地求生》中,RTX 3080在4K分辨率下依然能跑出134FPS,比RTX 2080 Ti強(qiáng)了34%,比RTX 2080則要強(qiáng)了74%。
10、微軟模擬飛行
《微軟模擬飛行2020》果然是真硬件殺手,RTX 3080在4K分辨率下也沒能超過60FPS,但是比RTX 2080 Ti強(qiáng)了31%,比RTX 2080則要快了64%。
11、死亡擱淺
RTX 3080在《死亡擱淺》能夠很輕松的跑出112FPS,比RTX 2080 Ti的85FPS高了27幀,領(lǐng)先幅度為32%;和RTX 2080相比則多了43幀,強(qiáng)了62%。
12、巫師3
在《巫師3》中,RTX 3080依然能在4K分辨率下測得92FPS的幀率,比RTX 2080 Ti高了20幀,領(lǐng)先幅度為28;和RTX 2080相比則多出了34幀,領(lǐng)先優(yōu)勢為59%。
13、無主之地3
《無主之地3》是RTX 3080第二款沒能到60幀的游戲,雖然59FPS也非常接近了,和RTX 2080 Ti相比能夠有26%的優(yōu)勢,與RTX 2080相比優(yōu)勢幅度接近80%。
14、戰(zhàn)地5
在4K分辨率下,RTX 3080在《戰(zhàn)地5》中依然跑出了123FPS,比RTX 2080 Ti多了34幀,領(lǐng)先幅度達(dá)到了38%;比RTX 2080多了55幀,領(lǐng)先優(yōu)勢為81%。
15、戰(zhàn)爭機(jī)器5
在《戰(zhàn)爭機(jī)器5》中,RTX 3080的幀率為80FPS,比RTX 2080 Ti多了16幀,領(lǐng)先幅度為25%;與RTX 2080相比則能多出30幀,領(lǐng)先了60%。
4K分辨率才是RTX 3080真正的戰(zhàn)場,相比RTX 2080領(lǐng)先優(yōu)勢達(dá)到了65%,比RTX 2080 Ti也強(qiáng)了30%,同時幾乎達(dá)到了AMD RX 5700XT二倍的性能。
十一、超頻測試:放棄
RTX 3080的超頻真是一言難盡!
想一想當(dāng)初從Maxwell的28nm到Pascal的16nm所帶來的頻率提升幅度,原本我們是對采用8nm制程工藝的GA102芯片抱有很大的期待。畢竟在3DMark中,RTX 3080在默頻下就能自動加速到2025MHz,不過結(jié)果卻是令人大跌眼鏡。
經(jīng)過多次嘗試,最終發(fā)現(xiàn)RTX 3080超70MHz之后可以勉強(qiáng)通過3DMark的測試,并且得分也有些許提升。
不過在卻無法通3DMark Time Spy,即便將超頻幅度降到40MHz也依然如此。超頻40MHz之后在部分游戲中也會出現(xiàn)崩潰的現(xiàn)象。
既然40MHz都超不了,那就干脆不超核心了,來超顯存看看。
結(jié)果顯存頻率很輕易就從1188MHz(等效于19GHz)超到了1251MHz(等效于20GHz),顯存帶寬也從760GB/s提升到了800GB/s。
不過讓人大跌眼鏡的是,超了顯存之后3DMark的跑分并沒有提升,連一絲都沒有。
看來RTX 3080的超頻幾乎就是雞肋般的存在了,不過考慮到它默頻其實已經(jīng)很超頻,所以不能超頻也沒有太大遺憾。
十二、溫度與功耗測試:烤機(jī)20分鐘68度 功耗也并不夸張
RTX 3080的TDP達(dá)到了320W,較RTX 2080的225W高了將近100W,比起RTX 2080 Ti的260W也增加了60W之多。
至于溫度,在我們的RTX 2080/RTX 2080 Ti首發(fā)測試中,前者的烤機(jī)溫度為75度,而RTX 2080 Ti的烤機(jī)溫度則高達(dá)79度。
下面,讓我們來看看在大幅度增加TDP之后,RTX 3080的溫度與功耗實際表現(xiàn)如何。
1、溫度測試
使用Furmark來對RTX 3080進(jìn)行烤機(jī)測試,測試時室溫為28度。
將Furmark的參數(shù)設(shè)定為1920*1080分辨率、0AA。運(yùn)行20分鐘之后, RTX 3080的溫度穩(wěn)定在70度附近,沒有上升的跡象,顯卡的功耗穩(wěn)定在310~320W附近。
RTX 2080/RTX 2080 Ti的溫度取自于2018年的首發(fā)評測
能夠在320W的烤機(jī)功耗下降核心溫度壓制在70度的,即便是以往的頂級非公RTX 2080 Ti也未必能做到,看來RTX 3080的散熱系統(tǒng)的確是提升巨大。
2、功耗測試
由于TDP大幅度提升,外界傳言需要RTX 3080需要配備額定1000W的電源,事實是否真的如此呢!
分別測試待機(jī)、與Furmark烤機(jī)功耗,另外我們還會加上游戲功耗測試,測試的游戲項目為《巫師3》。
測試所用的電源為鑫谷昆侖KL-750W鉑金牌電源。
由于我們的測試平臺將i9-10900K超頻到了5.2GHz(核心)+4.8GHz(Ring),皇家戟F4-4000C15D 8GBx4的默認(rèn)電壓也高達(dá)1.5V,因此待機(jī)功耗也是水漲船高,幾塊N卡的平臺待機(jī)功耗都在90W左右。
在運(yùn)行《巫師3》時,NVIDIA RTX 3080平臺的整機(jī)功耗達(dá)到了450W,比RTX 2080 Ti高了55W的樣子,比RTX 2080更是高了126瓦。
至于烤機(jī)功耗,其實NVIDIA RTX 3080顯卡的功耗一直在305W~320W之間跳動,對應(yīng)的平臺功耗則是450W~470W之間。這個功耗數(shù)字比起RTX 2080 Ti來說高了60W左右,比起RTX 2080則高了110W。
十三、DLSS與光線追蹤測試:《堡壘之夜》、《德軍總部:新血脈》、《古墓麗影:暗影》
2年前,圖靈構(gòu)架正式來到玩家面前。與以往的顯卡相比,圖靈GPU最大的革新就是新增了光線追蹤計算單元,讓玩家第一次在游戲中感受到了實時光線追蹤技術(shù)所帶來的真實而又震撼畫面。
然而,NVIDIA這條路走的可謂是充滿坎坷,圖靈顯卡上市兩個月后都還沒有一款游戲支持RTX,因而一直被玩家所質(zhì)疑,認(rèn)為RTX就是下一個Physx。
不過在NVIDIA、AMD、微軟以及眾多游戲廠商不懈努力之下,已經(jīng)有越來越多的游戲開始支持光線追蹤和DLSS,已經(jīng)有越來越多的游戲開支擁抱RTX技術(shù),比如《戰(zhàn)地5》、《古墓麗影:暗影》、《地鐵:離去》、《控制》、《使命召喚16》、《AMID EVIL》、《德軍總部:新血脈》、《帶你去月球》、《我的世界》、《光明記憶:無限》、《DOOM:永恒》這些已經(jīng)上市的游戲已經(jīng)支持光追和DLSS技術(shù)。
另外像《微軟模擬飛行2020》、《死亡擱淺》這樣的大作雖然不支持光追,但是卻支持DLSS技術(shù),也能極大的提升游戲的流暢度。
下面我們挑選了6款游戲進(jìn)行測試,讓大家看看最新的RTX 3080的表現(xiàn)是否能夠達(dá)到大家的預(yù)期。
所有RTX與DLSS的測試均是在4K分辨率下運(yùn)行,并開啟最高畫質(zhì)。
1、堡壘之夜
幾乎在英偉達(dá)發(fā)布全新的RTX30系顯卡的同時,《堡壘之夜》也推送了最細(xì)的更新,全面支持光線追蹤與DLSS技術(shù)。
這是打開RTX與DLSS之后的畫面,水面波光粼粼,天空和地面一切可以反射與折射的物體都在水中有形成了相應(yīng)的倒影。另外4K分辨率下幀率也不低,有53FPS。
再來對比關(guān)閉實施光線追蹤后的畫面,可以明顯的發(fā)現(xiàn),水面死氣,天空紫色的彩霞在水中沒有得不到任何體現(xiàn)。
至于測試場景,為了盡量避免變量干擾,我們選擇了一個單人場景。
RTX 3080在默認(rèn)情況下能夠達(dá)到94FPS的幀率,開啟了光線追蹤之后,幀率暴跌到了28FPS,跌幅達(dá)到了70%實在是令人震驚。不過還好打開DLSS技術(shù)之后,幀率又回升到了65FPS。
2、德軍總部:新血脈
1、德軍總部:新血脈
《德軍總部:新血脈》在2019年7月發(fā)售的時候并不支持光追,但在2019年底加入了光追與DLSS技術(shù)的支持,讓游戲中的任何反射表面現(xiàn)在都能有準(zhǔn)確、高質(zhì)量、高細(xì)節(jié)的逼真反射效果。
《德軍總部:新血脈》在開啟了RTX之后,完全就是2個游戲了,汽車玻璃里面可以看到非常真實的倒影。
4K分辨率下開啟DLSS+RTX之后,依然能夠跑出149FPS的幀率。
《德軍總部》的表現(xiàn)還算友好,開啟光追后幀率只是從150FPS掉到了86FPS,跌幅僅有43%。而開啟DLSS技術(shù)之后,幀率又回到了149FPS。
3、古墓麗影:暗影
RTX 3080光追之后,幀率只有50FPS。
開啟RTX DLSS之后,幀率直接從50FPS提升到了100FPS。
在這里,RTX 3080開啟DLSS之后幀率直接翻倍,提升幅度明顯強(qiáng)于其余2張顯卡。RTX 2080與RTX 2080 Ti在開啟DLSS之后,性能只是提升了50%。
十四、DLSS與光線追蹤測試:《光明記憶:無限》、《控制》、《戰(zhàn)地5》
1、光明記憶:無限
《光明記憶:無限》是一款國產(chǎn)游戲,最初僅由一個人單獨開發(fā),但不要因此而輕視了它,因為它是到目前為止,光線追蹤效果做的最好的一款游戲。
RTX關(guān)閉時,整個畫面非常暗淡,頭盔上的玻璃面罩顯示的影子并不全,有很多缺失。
下圖打開RTX之后,頭盔幾乎可以反射任何物體,天上的白云、遠(yuǎn)處的山峰、當(dāng)然最明顯的就是那個太陽。
從這張圖,可以非常清楚的看到常規(guī)的光柵化渲染與實時光線追蹤技術(shù)之間的區(qū)別。
《光明記憶》開啟光追之后,RTX 3080的幀率直接從111FPS掉到了43FPS,下降了60%以上。開啟DLSS技術(shù)之后,幀率提升到了102FPS,與默認(rèn)幀率僅有9FPS的差距。
5、控制
《控制》采用Northlight引擎打造,并且支持光追特效和NVIDIA DLSS深度學(xué)習(xí)超級采樣抗鋸齒,這也讓《Control》成為繼《戰(zhàn)地5》《地鐵:離開》《古墓麗影:暗影》之后的第四款支持光線追蹤效果的游戲。
在2020年3月,《控制》推送了支持DLSS 2.0技術(shù)的更新,相比DLSS一代細(xì)節(jié)更清晰,幀率更高。
不開啟RTX與DLSS時,RTX 3080的幀率為67FPS。
開啟RTX之后,地面以及墻壁上產(chǎn)生了非常真實的光影效果,同時畫面看上也去更加明亮。不過代價就是幀率跌到了40FPS。
同時開啟RTX+DLSS之后,游戲的幀率提升到了73FPS。
不過實際上DLSS 2.0實際渲染分辨率是2560*1440,而不是3840*2160,但是看上去畫面幾乎沒有區(qū)別。
《控制》的表現(xiàn)還算是好的,RTX 3080開啟光追后幀率只是從67FPS掉到了40FPS,只是下降了40%。開啟DLSS 2.0技術(shù)之后,幀率提升到了73FPS,已經(jīng)超過了默認(rèn)的67FPS。
6、戰(zhàn)地5
《戰(zhàn)地5》在2018年推出了支持DXR光線追蹤的更新,又在2019年2月份推送了支持DLSS深度學(xué)習(xí)抗鋸齒的更新。
從時間點上來說,《戰(zhàn)地5》是世界上第一款同時支持DLSS與RTX技術(shù)的游戲,也第一次讓玩家見到了實時光線追蹤到了游戲中會是什么樣子。
左圖沒有光追,出現(xiàn)了非常明顯的邏輯性錯誤。高架橋的倒影沒有出現(xiàn)在車窗中,反而被高架橋所擋住的屋頂竟然出現(xiàn)了。
右圖在打開光線追蹤之后,一切恢復(fù)了正常。
《戰(zhàn)地5》的表現(xiàn)很令人迷惑,開啟光追后,RTX 3080的幀率只是從123FPS掉了74FPS,下降了40%不算太多。不過開開啟DLSS之后,幀率僅僅只提升了14FPS,提升還不到20%
十五、DLSS與光線追蹤測試數(shù)據(jù)分析:光追幀率砍半 DLSS給追回來
將前面2章的測試數(shù)據(jù)匯總?cè)缦拢?/p>
1、首先是橫向?qū)Ρ龋嚎梢钥吹?款顯卡在開啟RTX之后,游戲的幀率都爆降了55%左右,但是在開啟DLSS技術(shù)之后,性能可以得到90%以上的提升。
2、對比3款顯卡的RTX性能:RTX 3080的光追性能比RTX 2080強(qiáng)81%,比RTX 2080 Ti要強(qiáng)了38%。
3、對比3款顯卡的DLSS性能:開啟DLSS之后,RTX 3080的幀率比RTX 2080高了80%,比RTX 2080 Ti強(qiáng)了40%。
要知道在不開啟RTX與DLSS的情況下,RTX 3080對比RTX 2080/RTX 2080 Ti的提升幅度分別是66%、30%。因此也說明了新一代安培構(gòu)架擁有更加高效的RTX與Tensor單元。
另外對于在不啟用RTX的時候,僅僅開啟DLSS深度抗鋸齒技術(shù)能有多大的提升,我們也稍稍測試了一下,測試依舊是在4K分辨率下進(jìn)行,開啟最高畫質(zhì)!
死亡擱淺
在使用TAA抗鋸齒的時候,RTX 3080能夠跑出114FPS。
開啟DLSS抗鋸齒(均衡模式),游戲的幀率直接提升到了174FPS,提升幅度高達(dá)53%。
控制
在《控制》這款游戲中,4K分辨率下使用默認(rèn)抗鋸齒技術(shù),RTX 3080的幀率是67FPS。
開啟DLSS抗鋸齒技術(shù)之后,RTX 3080的幀率來到了113FPS,提升幅度為69%。
堡壘之夜
使用默認(rèn)的抗鋸齒技術(shù),RTX 3080能夠跑出94FPS的幀率。
打開DLSS技術(shù)之后,游戲的幀率暴增到了169FPS,4K144Hz的顯示器也可以愉快的玩耍了。
剩下的幾款游戲也是類似的情況,我們就不一一展示了。總體而言,在4K分辨率,如果只開啟DLSS技術(shù),游戲的幀率能夠有60%以上的提升,RTX 3080在大多數(shù)游戲都能獲得100FPS+的幀率。
十六、總結(jié):十年來最良心的N卡
NVIDIA這一次的確是欺騙了所有人!事前所有的媒體以及AIC拿到的消息是:RTX 3080擁有4352個流處理器,售價直奔五位數(shù)。
GeForce RTX 30系列顯卡正式發(fā)售之后,我們才知道RTX 3080的流處理器數(shù)量直接從傳言的4352個翻倍到了8704個。而5499元售價更是讓人驚掉下巴。簡單的說,就是流處理器比原來預(yù)計的多一倍,而價格降了一半!
下面,我們長話短說,本次評測的內(nèi)容簡述如下:
1、雙倍流處理器為什么只有30%的性能提升!
首先我們通過AIDA64 GPGPU測試知道RTX 3080的8704個流處理器的確是可以同時工作,不過為什么相比RTX 2080 Ti流處理器數(shù)量翻倍而性能卻只提升了30%呢?
原因有二,其實就是RTX 2080 Ti還有4352個INT32單元,他們中的大部分雖然會被閑置,但是依然能為RTX 2080 Ti帶來額外的30%左右的性能提升。
第二點則是因為RTX 3080需要足夠高的功耗才能使8704個流處理器運(yùn)行在較高的頻率上,而默認(rèn)的320W TDP并不能很好的滿足這個需求。
2、是否真的需要額定1000W電源?
我們也不知道1000W的傳言從何而來!就我們的測試平臺而言,超頻到5.2GHz的i9-10900K + 皇家戟4000MHz C15 32GB內(nèi)存,在數(shù)天的測試過程中,全程使用GPU-Z監(jiān)控顯卡的功耗,
發(fā)現(xiàn)GPU功耗最高只能達(dá)到347W,即便加上i9-10900K滿載時 250W功耗,一款額定750W的金牌電源亦足以應(yīng)付最極端的情況了。
事實上,整個測試過程中,我們的KL-750W鉑金牌電源也沒有因為過載觸發(fā)斷電保護(hù)而重啟。
3、超頻
對于RTX 3080的超頻真的是一言難盡!經(jīng)過我們反復(fù)測試,這塊顯卡在基礎(chǔ)頻率上增加40MHz都無法通過3DMark Time Spy的測試。美光的GDDR6X顯存倒是可以從19GHz超頻到,但是通過測試發(fā)現(xiàn)只超顯存對于游戲性能的提升非常有限。對于超頻,可以放棄了!
有鑒于此,大家在選購RTX 3080時,可以避開昂貴的堆料非公,畢竟再怎么堆料,頻率也難以有較大提升。
散熱性能較好的廉價非公是相對合理的選擇。
4、光線追蹤:最好有DLSS輔助
目前支持光追的游戲越來越多了,隨著PS5與Xbox Series X的到來,預(yù)計未來會有更多的游戲擁抱光追。在第二代RT單元的加持下,RTX 3080開啟實時光追之后,性能可比RTX 2080 Ti強(qiáng)40%,比RTX 2080強(qiáng)80%。
即便如此,在4K分辨率下開啟光追之后,游戲的幀率會暴跌55%左右,很多大作已經(jīng)無法流暢運(yùn)行。不過好在現(xiàn)在支持光追的游戲同時也支持DLSS深度學(xué)習(xí)抗鋸齒技術(shù)。在開啟RTX的導(dǎo)致幀率暴跌之后,啟用DLSS技術(shù)可以將游戲的幀率提升90%左右。
另外DLSS 2.0技術(shù)對于畫質(zhì)的優(yōu)化做的相當(dāng)?shù)轿涣耍瑤缀蹩梢枣敲繲AA鋸齒。在幀率不夠的時候,可以放心的在游戲里開啟DLSS技術(shù)。
5、RTX 3080是NVIDIA歷年來顏值與做工最好的公版顯卡
公版RTX 3080采用了一體化金屬框架設(shè)計,整個顯卡可以看作是一塊金屬,因此不會出現(xiàn)非公版那種由于散熱器太重將顯卡PCB板拉完的情況。
另外在散熱方面,公版RTX 3080的設(shè)計也相對完美。約有一半的熱量會直接從I/O接口處排除機(jī)箱外,可以大大減輕機(jī)箱的散熱壓力。而背面的風(fēng)扇會這幾將熱氣向下吹,對CPU散熱影響極小。另外由于有金屬外殼的保護(hù),顯卡下方的NVMe SSD也不會被顯卡的熱氣直接吹到。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4940瀏覽量
102818
發(fā)布評論請先 登錄
相關(guān)推薦
評論