亚洲成A人片在线观看无码_av在线亚洲欧洲日产一区二区_亚洲av无码国产综合专区

本部分，我們就跟隨作者一起看看Intel Stratix10 NX和Nvidia在這個領域的利器T4以及V100之間的對比，過程分為芯片級對比以及系統級對比。

本部分一起先來看看芯片級對比

首先來看下我們的GPU對手——Nvidia T4和V100分別有320個和640個張量核（專門用于AI工作負載的矩陣乘法引擎）

Nvidia Tesla T4

Nvidia Tesla V100

下面表格總結了與Stratix10 NX和這些同代工藝GPU的關鍵指標對比。就die尺寸來說，V100是Nvidia最大的12nm GPU，幾乎比T4大50%，而Stratix10 NX比兩種GPU都小。

首先，文章使用GPU最擅長處理的工作負載：通用矩陣乘（GEMM）來跑GPU的benchmark（什么是GEMM請移步https://spatial-lang.org/gemm），為了測量最佳的GPU性能，對每個器件使用最新的library，這些庫不會出錯，并且分別在使用和不使用張量核的情況下測試性能。對于fp32和fp16實驗，分別使用CUDA10.0和10.2的CuBLAS庫進行V100和T4。對于int8，我們使用CUDA10.2中的cuBLASLt庫，這樣可以比cuBLAS庫獲得更高的int8性能。文章使用Nvidia的官方（高度優化）的cuDNN kernel來處理DL工作負載，并且分別對V100和T4使用了從cuDNN7.6.2和7.6.5。（cuBLAS API，從cuda6.0開始；cuBLASLt API，從cuda10.1開始）

cuDNN庫不支持int8計算kernel，但它們支持將所有模型權重保存在片上內存中。對于每個工作負載、問題大小和序列長度，文章在兩種GPU上運行了所有可能的配置組合，如精度{fp32、fp16、int8}、計算樣式{persistent、non-persistent}、張量核心設置{enable、disable}。然后，選擇最佳的性能，來和Stratix10 NX的NPU進行比較。這里因為是芯片級對比，所以只考慮了芯核的計算效率，不包括任何初始化、芯核啟動或主機-GPU數據傳輸開銷。

下圖給出了T4和V100 GPU上fp32、fp16和int8精度的GEMM benchmark測試結果。結果表明，相對于張量核禁用情況（藍線），啟用張量核（紅線）可以顯著提高GPU在GEMM上的性能。

然而，一個普遍的趨勢是，張量核雖然是為GEMM設計的，但在矩陣大小為2048或以下情況時的利用效率明顯不如峰值情況（紅色虛線）。因此要實現高利用率，除非工作負載中的矩陣大小非常大，而這在實際DL工作負載中并不常見。T4和V100上的張量核都不支持fp32的精度，而是在執行乘法運算之前，將fp32數據轉換為fp16。相對于純fp16 GEMM，這種數據轉換開銷降低了張量核性能。另一個有趣的情況是，當T4張量核在int8模式下工作時，它們需要將輸入矩陣從標準的行/列主要格式轉換為特定于張量核的布局。因此，即使在處理非常大的8192×8192矩陣時，在張量核（沒有標記的紅線）上實現的int8性能還不到峰值性能的45%。

為了更好地理解這種數據轉換的開銷，文章還進行了一個額外的實驗，在這個實驗中，對張量核進行了特殊布局（帶有標記的紅線）。即使不算矩陣布局變化的開銷，對于4096×4096及以下的矩陣大小，張量核利用率也小于40%，在6144×6144矩陣中利用率達到最高為72%。

下面來看看FPGA上的情況，上圖（Fig.6）的右上角那張圖比較了Stratix10 NX上的NPU性能與具有int8張量核的T4 GPU的性能。為了公平地比較，文章禁用了NPU兩個輸入矩陣其中一個的矩陣布局變換，只保留了對另一個輸入以及輸出矩陣的布局變換（因為NPU以標準格式使用和生成這些矩陣）。

雖然NPU是為矩陣向量運算而設計的，但它在GEMM工作負載上仍然實現了與T4相似的性能，其矩陣大小從512到3072不等（最大的矩陣可以fit進片上BRAM）。

最后，一起看看頂級FPGA和GPU的PK結果。下圖（Fig.7）將文章在Stratix10 NX上增強型NPU的性能與T4和V100的最佳性能進行比較。對于比較小的batch-3和batch-6情況，FPGA性能總是顯著高于兩個GPU。FPGA在batch-6（其設計為：雙核batch-3）中表現最好，平均性能分別是T4和V100的24.2x和11.7x。

與batch-6相比，FPGA在batch-3上的性能較低，因為兩個核中的一個完全空閑。然而，它仍然比T4和V100分別平均快了22.3x和9.3x。在batch size高于6時，如果batch size不能被6整除，則NPU可能不能被充分利用。例如，在batch size為8、32和256的情況下，NPU最多可以達到其batch-6性能的67%、89%和99%，而batch size為12、36和258（上圖中的虛線所示）可以達到100%的效率。在32輸入的中等batch size情況下，NX仍然比T4具有更好的性能，并且與V100性能相當。

即使在比較大的batch size情況下，NX的性能也比T4高58%，只比die size更大（大將近一倍）的V100低30%。這些結果表明，人工智能優化的FPGA在低batch實時推理中不僅可以實現比GPU好一個數量級的性能，而且可以在放寬延遲約束下的高batch推理中和GPU匹敵。上圖（Fig.7）中的右下角圖總結了不同batch size情況下NX相對于CPU的平均加速情況。

上圖（Fig.7）中的右上角圖顯示了與不同batch大小下的兩個GPU相比，NX的平均利用率。NX在batch-6中的平均利用率為37.1%，而T4和V100分別僅為1.5%和3%。GPU張量核并非直接互連，它們只能接收來自本地核內寄存器文件的輸入。因此，每個GPU張量核都必須發送它的partial result到全局內存中，并與其他張量核同步，以結合這些partial result。然后GPU從全局內存中讀取組合好的矢量來執行進一步的操作，如激活函數（activation functions）。

較高的batch size可以攤銷這種同步延遲，但即使在batch-256情況下，T4和V100的利用率分別只有13.3%和17.8%。另一方面，FPGA在架構上也更具優勢，其在張量塊之間有專用的用來做減法的互連， FPGA的可編程布線資源還允許將MVU tile和矢量單元級引擎級聯起來進行直接通信，減少了像GPU中那樣必須通過內存通信的情況。

綜上可以看到，FPGA依靠架構優勢和超高的資源利用率，在AI性能PK上對GPU形成了強勁挑戰。下一篇，我們再來一起看看從系統角度，FPGA和GPU的對比情況以及功耗方面的分析。

原文標題：讀《超越巔峰性能：AI優化的FPGA和GPU真實性能對比》：芯對芯

文章出處：【微信公眾號：FPGA之家】歡迎添加關注！文章轉載請注明出處。

責任編輯：haq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

FPGA

FPGA

+關注

關注
1626

文章
21674

瀏覽量
601939
AI

AI

+關注

關注
87

文章
30199

瀏覽量
268447

原文標題：讀<超越巔峰性能：AI優化的FPGA和GPU真實性能對比>：芯對芯

文章出處：【微信號：zhuyandz，微信公眾號：FPGA之家】歡迎添加關注！文章轉載請注明出處。

NPU與GPU的性能對比

它們在不同應用場景下的表現。一、設計初衷與優化方向 NPU ：專為加速AI任務而設計，包括深度學習和推理。針對神經網絡的計算模式進行了優化，能夠高效地執行矩陣乘法、卷積等操作。擁有眾多小型處理單元，配備專門的內存體系結構

發表于 11-14 15:19 ?447次閱讀

瑞沃微：一文詳解CSP（Chip Scale Package）芯片級封裝工藝

在半導體技術的快速發展中，封裝技術作為連接芯片與外部世界的橋梁，其重要性不言而喻。CSP（Chip Scale Package），即芯片級封裝技術，正是近年來備受矚目的一種先進封裝技術。今天，請跟隨瑞沃微的腳步，一起深入了解CSP芯片級

發表于 11-06 10:53 ?348次閱讀

實現芯片級封裝的最佳熱性能

電子發燒友網站提供《實現芯片級封裝的最佳熱性能.pdf》資料免費下載

發表于 10-15 10:22 ?0次下載

解決芯片級功率MOSFET的組裝問題

電子發燒友網站提供《解決芯片級功率MOSFET的組裝問題.pdf》資料免費下載

發表于 08-27 11:17 ?0次下載

自動駕駛三大主流芯片架構分析

當前主流的AI芯片主要分為三類，GPU、FPGA、ASIC。GPU、FPGA均是前期較為成熟的

發表于 08-19 17:11 ?1464次閱讀

概倫電子宣布正式推出芯片級HBM靜電防護分析平臺ESDi

近日，概倫電子宣布正式推出芯片級HBM靜電防護分析平臺ESDi和功率器件及電源芯片設計分析驗證工具PTM，并開始在國內外市場廣泛推廣。

發表于 05-28 10:09 ?542次閱讀

FPGA芯片你了解多少？

的缺點。 FPGA和CPU、GPU、ASIC的芯片等核心區別是其底層邏輯運算單元的連線及邏輯布局未固化，用戶可通過 EDA 軟件對邏輯單元和開關陣列編程，進行功能配置，從而去實現特定功能的集成電路

發表于 04-17 11:13

芯片級封裝中的3.5MHz高效升壓轉換器TPS6125x數據表

電子發燒友網站提供《芯片級封裝中的3.5MHz高效升壓轉換器TPS6125x數據表.pdf》資料免費下載

發表于 04-11 15:14 ?0次下載

FPGA在深度學習應用中或將取代GPU

對神經網絡進行任何更改，也不需要學習任何新工具。不過你可以保留你的 GPU 用于訓練?！?Zebra 提供了將深度學習代碼轉換為 FPGA 硬件指令的抽象層 AI 硬件前景

發表于 03-21 15:19

fpga芯片和人工智能芯片的區別

FPGA芯片和人工智能芯片（AI芯片）在設計和應用上存在一些關鍵的區別，這些區別主要體現在它們的功能、優

發表于 03-14 17:26 ?1150次閱讀

在芯片級的薄膜電阻和板級的厚膜電阻都是如何進行修調呢？

在MEMS某些器件設計中，常常需要用到可調電阻，在板級電路上可以通過電位器對貼片電阻進行調阻，但在芯片級的薄膜電阻和板級的厚膜電阻都是如何進行修調呢？

發表于 02-29 10:44 ?902次閱讀

全球首款芯片級智能頭盔解決方案

搭載展銳芯片級解決方案的智能頭盔可實現： 1. 高標準、高質量、高可靠安全無小事，智能頭盔的使用環境復雜多樣，這要求從硬核內芯到硬件模塊都必須高標準、高質量、高可靠。紫光展銳的智能頭盔解決方案

發表于 02-27 13:04 ?381次閱讀

Vision Pro芯片級內部拆解分析

近日國外知名拆解機構iFixit對Vision Pro進行了芯片級拆解，結果顯示該設備內含大量德州儀器（TI）芯片，還有一顆國產芯片——兆易創新GD25Q80E 1 MB 串行 NOR 閃存。

發表于 02-21 10:11 ?1258次閱讀

FPGA、ASIC、GPU誰是最合適的AI芯片？

CPU、GPU遵循的是馮·諾依曼體系結構，指令要經過存儲、譯碼、執行等步驟，共享內存在使用時，要經歷仲裁和緩存。而FPGA和ASIC并不是馮·諾依曼架構（是哈佛架構）。以FPGA為例，它本質上是無指令、無需共享內存的體系結

發表于 01-06 11:20 ?1411次閱讀

IEC61967-2芯片級RE測試應用筆記

電子發燒友網站提供《IEC61967-2芯片級RE測試應用筆記.pdf》資料免費下載

發表于 12-14 10:03 ?2次下載