賽靈思 INT8 優(yōu)化為使用深度學習推斷和傳統(tǒng)計算機視覺功能的嵌入式視覺應用提供最優(yōu)異的性能和能效最出色的計算方法。與其他 FPGA DSP 架構相比,賽靈思的集成 DSP 架構在 INT8 深度學習運算上能實現(xiàn) 1.75 倍的解決方案級性能。
本白皮書探討將 INT8 運算用于實現(xiàn)在賽靈思 DSP48E2 片上、使用深度學習推斷和計算機視覺功能的嵌入式視覺應用,以及這種方案與其他 FPGA 的對比。與占用相同資源數(shù)量的其他 FPGA 相比,賽靈思的 DSP 架構對 INT8 乘法累加(MACC) 運算能實現(xiàn) 1.75 倍的峰值解決方案級性能。由于嵌入式視覺應用可以在不犧牲準確性的情況下使用較低位精度,因此需要高效的 INT8 實現(xiàn)方案。
賽靈思的 DSP 架構和庫針對 INT8 運算進行了精心優(yōu)化。本白皮書介紹如何使用賽靈思 16nm 和 20nm All Programmable 器件中的 DSP48E2 Slice,在共享相同內(nèi)核權重的同時處理兩個并行的 INT8 MACC 運算。本白皮書還闡述了要運用賽靈思這一獨特技術,為何輸入的最小位寬為 24 位。此外本白皮書還詳細介紹了如何以 SIMD 模式使用 DSP48E2 Slice,供基本算術運算使用。另外還提供在深度學習領域或其他計算機視覺處理任務領域如何將這些功能用于嵌入式視覺的實例。
全書目錄
用于深度學習和計算機視覺的 INT8
賽靈思 DSP Slice 片上的 INT8 運算
可擴展的 INT8 優(yōu)化
DSP48E2 SIMD 模式
映射 INT8 優(yōu)化到深度學習應用
創(chuàng)建 INT8 鏈接 MACC 的其他方法
映射 INT8 優(yōu)化到計算機視覺功能
使用可擴展 INT8 優(yōu)化的定制 2D 卷積
使用 SIMD 運算的中值濾波器
競爭分析
在競爭分析中使用英特爾的 Arria 10 器件與賽靈思的 Zynq? UltraScale+ ? MPSoC 對比。在進行嵌入式視覺應用計算效率比較時,選擇的器件有可比的 DSP 密度和器件功耗:
? Arria 10 SoC :SX220、SX270 和 SX480
? Zynq UltraScale+ MPSoC :ZU3、ZU7 和 ZU9 器件
重點比較能用于包括深度學習和計算機視覺在內(nèi)的眾多應用的通用 MACC 性能。
-
dsp
+關注
關注
552文章
7962瀏覽量
348257 -
Xilinx
+關注
關注
71文章
2163瀏覽量
121006 -
INT8
+關注
關注
0文章
1瀏覽量
1665
原文標題:利用 Xilinx 器件上的 INT8 優(yōu)化開發(fā)嵌入式視覺
文章出處:【微信號:xilinx_inc,微信公眾號:賽靈思】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論