在最近的FPGA國際研討會(ISFPGA)上,英特爾加速器架構實驗室(AAL)的Eriko Nurvitadhi博士,分享了英特爾的最新研究。
這一研究,主要評估在DNN(深度神經網絡)算法領域,兩代英特爾FPGA(Intel Arria10和Intel Stratix 10),與NVIDIA TITAN X Pascal GPU相比性能如何。
△ 深度神經網絡概述
英特爾表示在應用領域,FPGA在DNN研究中表現非常出色,可用于需要分析大量數據的AI、大數據或機器學習等領域。使用經修剪或緊湊的數據類型與全32位浮點數據(FP32)時,測試的Intel Stratix 10 FPGA的性能優于GPU。
除了性能外,FPGA還具有強大的功能,因為它們具有適應性,通過重用現有的芯片可以輕松實現更改,從而讓團隊在六個月內從一個想法進入原型。
而構建一個ASIC需要18個月。
△ FPGA非常適用于DNN
硬件:與高端GPU相比,FPGA具有卓越的能源效率(性能/瓦特),但還有不被熟知的高峰值浮點性能。FPGA技術正在迅速發展。即將推出的英特爾Stratix 10 FPGA提供超過5,000個硬件浮點單元(DSP),超過28MB的片上RAM(M20K),與高帶寬內存等特性。
基于14nm工藝的英特爾Stratix 10在FP32吞吐量方面達到峰值9.2TFLOP/s。相比之下,最新的Titan X Pascal GPU的FP32吞吐量為11TFLOP/s。
新興的DNN算法:更深的網絡提高了精度,但是大大增加了參數和模型大小。這增加了對計算、帶寬和存儲的需求。因此,新興趨勢是采用緊湊型低精度數據類型,遠低于32位。16位和8位數據類型正在成為新常態,也得到DNN軟件框架(例如TensorFlow)的支持。
新興的低精度和稀疏DNN算法比傳統的密集FP32 DNN提供了數量級的算法效率改進,但是它們引入了難以處理的不規則并行度和定制數據類型。這時FPGA的優勢就體現出來了。這種趨勢使未來FPGA成為運行DNN,AI和ML應用的可行平臺。
GPU:使用已知的庫(cuBLAS)或框架(Torch with cuDNN)
FPGA:使用Quartus Early Beta版本和PowerPlay
研究一:矩陣乘法(GEMM)測試
矩陣乘法(GEMM)測試的結果。GEMM是DNN中的關鍵操作,上述四個不同類型的測試表明,除了在FP32 Dense GEMM測試中,Stratix 10與TITAN X仍有差距。另外三項測試中新一代英特爾FPGA的表現都優于GPU。
研究二:使用三元ResNet DNNs測試
三進制DNN最近提出約束神經網絡權重為+1,0或-1。這允許稀疏的2位權重,并用符號位操作代替乘法。與許多其他低精度和稀疏的DNN不同,三元DNN可以提供與現有技術DNN(即ResNet)相當的精度。
上圖右半部分,顯示了英特爾Stratix 10 FPGA和TITAN X GPU的ResNet-50的性能和性能/功耗比。即使對于保守的性能估計,英特爾Stratix 10 FPGA已經比實現了TITAN X GPU性能提高了約60%。在性能/功耗比方面,英特爾Stratix 10比TITAN X要好2.3倍到4.3倍。
評論
查看更多