精品国产一区二区三区在线|午夜成人无码福利免费视频动漫|国产毛片久久久久久国产毛片不卡|92国产精品午夜福利不卡|

什么是硬件加速引擎？

軟件在CPU上執(zhí)行，首先是從控制器從存儲器取指（Fetch），接著控制器進行譯碼（Decode），然后由算數邏輯單元（ALU）執(zhí)行指令（Execute），這就是指令周期，如下圖所示。因此CPU每執(zhí)行一個運算，都是一個流水線式調用計算的過程。普通計算機用指令運算速度衡量計算性能，而超算通常用浮點運算速度來衡量其性能。但不管是指令運算還是浮點運算，在CPU上都是線程的運算，并且要耗費n個指令周期。線程的機制決定了運算只能按部就班，執(zhí)行完當前的操作才能進行下一個，所以經常電腦會卡住，因為性能不足以快速執(zhí)行當前的運算。

想要提高CPU芯片性能，最簡單粗暴的辦法：要么提升主頻，要么增加核數：

1）提高主頻：當前流片的制程限制了主頻，我們一直徘徊在3-5GHz，且進一步提高主頻，功耗和散熱也是很大的問題。

2）增加核數：無限制的增加核數是一種非常笨拙的辦法，并且軟件不好優(yōu)化，同時又受面積、功耗、散熱、成本的制約，芯片良品率也將會進一步降低。

除非是云服務器類芯片等以為追求性能為目標，對能耗比不敏感的芯片，否則消費類芯片核心競爭力仍以能耗比和性價比為主。這意味著隨著摩爾定律的終結，我們很難再從通用CPU榨出更多的性能，那么架構的演進也許才能突破限制——采用硬件加速器引擎（協處理器），比如采用GPU/DSP/DPU等專用處理單元加速器來完成特定的功能，提升處理的效率。

典型的在2020.11.11，apple在WWDC上發(fā)布了采用自研SOC的全芯Macbook系列產品，使用的就是最新自研的號稱地表最強的M1芯片。該芯片采用了apple的手機SOC架構，由TSMC最新5nm制程工藝代工，集成了8個CPU，8個GPU（128個執(zhí)行單元，可同時執(zhí)行24576個線程，運算能力高達2.6TFLOPS），以及16核的神經網絡加速引擎Neural Engine（即上述所謂DPU，每秒可進行11萬億次操作），硬件編解碼核（硬件完成AVS、264/5等制式視頻的編解碼）。

這款地表最強的SOC，在同等功耗下，號稱達到了2倍目前最快的CPU性能，再次刷新了數據。這里的GPU與Neural Engine，硬件編解碼核等，這就我們所謂的硬件加速器。芯片充分利用硬件加速引擎，有效緩解了CPU線程運算的壓力。GPU是專用的圖形處理單元，Neural Engine是專用的卷積神經網絡計算單元，硬件編解碼是專用的視頻編解碼處理單元，三者異曲同工，無非就是將原本要用CPU計算的卷積/浮點運算進行了硬化，采用門電路進行并行加速運算，而非傳統CPU的指令運算流程。

文章出處：【微信公眾號：FPGA自習室】

責任編輯：gt

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯系本站處理。舉報投訴