什么是硬件加速引擎?
軟件在CPU上執(zhí)行,首先是從控制器從存儲器取指(Fetch),接著控制器進行譯碼(Decode),然后由算數邏輯單元(ALU)執(zhí)行指令(Execute),這就是指令周期,如下圖所示。因此CPU每執(zhí)行一個運算,都是一個流水線式調用計算的過程。普通計算機用指令運算速度衡量計算性能,而超算通常用浮點運算速度來衡量其性能。但不管是指令運算還是浮點運算,在CPU上都是線程的運算,并且要耗費n個指令周期。線程的機制決定了運算只能按部就班,執(zhí)行完當前的操作才能進行下一個,所以經常電腦會卡住,因為性能不足以快速執(zhí)行當前的運算。
想要提高CPU芯片性能,最簡單粗暴的辦法:要么提升主頻,要么增加核數:
1)提高主頻:當前流片的制程限制了主頻,我們一直徘徊在3-5GHz,且進一步提高主頻,功耗和散熱也是很大的問題。
2)增加核數:無限制的增加核數是一種非常笨拙的辦法 ,并且軟件不好優(yōu)化,同時又受面積、功耗、散熱、成本的制約,芯片良品率也將會進一步降低。
除非是云服務器類芯片等以為追求性能為目標,對能耗比不敏感的芯片,否則消費類芯片核心競爭力仍以能耗比和性價比為主。這意味著隨著摩爾定律的終結,我們很難再從通用CPU榨出更多的性能,那么架構的演進也許才能突破限制——采用硬件加速器引擎(協處理器),比如采用GPU/DSP/DPU等專用處理單元加速器來完成特定的功能,提升處理的效率。
典型的在2020.11.11,apple在WWDC上發(fā)布了采用自研SOC的全芯Macbook系列產品,使用的就是最新自研的號稱地表最強的M1芯片。該芯片采用了apple的手機SOC架構,由TSMC最新5nm制程工藝代工,集成了8個CPU,8個GPU(128個執(zhí)行單元,可同時執(zhí)行24576個線程,運算能力高達2.6TFLOPS),以及16核的神經網絡加速引擎Neural Engine(即上述所謂DPU,每秒可進行11萬億次操作),硬件編解碼核(硬件完成AVS、264/5等制式視頻的編解碼)。
這款地表最強的SOC,在同等功耗下,號稱達到了2倍目前最快的CPU性能,再次刷新了數據。這里的GPU與Neural Engine,硬件編解碼核等,這就我們所謂的硬件加速器。芯片充分利用硬件加速引擎,有效緩解了CPU線程運算的壓力。GPU是專用的圖形處理單元,Neural Engine是專用的卷積神經網絡計算單元,硬件編解碼是專用的視頻編解碼處理單元,三者異曲同工,無非就是將原本要用CPU計算的卷積/浮點運算進行了硬化,采用門電路進行并行加速運算,而非傳統CPU的指令運算流程。
文章出處:【微信公眾號:FPGA自習室】
責任編輯:gt
-
控制器
+關注
關注
112文章
16206瀏覽量
177423 -
cpu
+關注
關注
68文章
10826瀏覽量
211160 -
引擎
+關注
關注
1文章
360瀏覽量
22531
原文標題:圖像處理硬件加速引擎——不斷突破限制(上)
文章出處:【微信號:FPGA_Study,微信公眾號:FPGA自習室】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論