視覺應(yīng)用與人工智能(AI)正朝著精細(xì)化的方向發(fā)展,其背后的多種推動力中,最重要的兩種是高端智能手機的先進功能以及ADAS(高級駕駛輔助系統(tǒng))/自動駕駛技術(shù)。
智能手機的面部識別功能需要同時調(diào)用視覺與AI處理兩種技術(shù),而且技術(shù)難度不斷增加。最難的部分在于非理想狀態(tài)下的面部識別,如側(cè)臉、戴帽子、部分臉被圍巾遮蓋等。為此,智能手機的攝像頭變得越來越精細(xì),采用多種傳感器實現(xiàn)高動態(tài)范圍圖像(HDR)、雙攝變焦、圖像穩(wěn)定等功能。
第二個推動力,即ADAS,它的設(shè)計需要滿足兩大需求。第一個是面向特定功能的性能要求,比如行人偵測、駕駛員注意力監(jiān)控、道路偏離預(yù)警;第二個是降低功耗。大多數(shù)芯片都安裝在空氣流通較差的環(huán)境(沒有風(fēng)扇),甚至極端溫度環(huán)境,如前擋風(fēng)玻璃上后視鏡的背面。
還有一些其他驅(qū)動因素,如虛擬現(xiàn)實、增強現(xiàn)實、機器人、無人機、監(jiān)控攝像頭等技術(shù)的發(fā)展,它們的需求與上述場景大同小異。
上述功能、視覺和AI技術(shù)通常被集成到單獨的攝像頭管道,從降噪、視覺后處理等任務(wù)開始,再到圖像分類和分割。有時候,AI需要先完成場景分類,然后再執(zhí)行HDR或Bokeh焦外成像(模糊處理在日語里被稱作 boke)等精細(xì)圖像處理任務(wù)。
總體看來,目前有以下三種技術(shù)需求:
將視覺和AI處理集成在單一DSP
提升性能
極低功耗的限制
為了滿足這三種技術(shù)需求,新一代Tensilica Vision處理器應(yīng)運而生。
全新Tensilica Vision Q6簡介
提高性能,我們考慮了下面幾套可選方案:
增加SIMD寬度或VLIW槽的數(shù)量。但是這樣會增加編程難度,因為很多閑散資源無法有效利用。簡單地增加算力比有效地利用算力要簡單。
多核。可以立馬將可用處理能力提高一倍(或更多),但是需要兩倍的本地內(nèi)存,而且很難做到每個核計算負(fù)載的平衡
升頻。顯而易見的提高性能的方法,但代價是面積(成本)和功耗的增加
打造更高性能的新架構(gòu)
Cadence決定采取第四種方案。全新Vision Q6 DSP是第五代產(chǎn)品,面向視覺和AI 應(yīng)用量身打造,采用13級流水線,16nm工藝下可實現(xiàn)1.5GHz處理器頻率。較上一代P5,相同版圖面積條件下的頻率提升達(dá)50%。峰值性能的效率提高1.25倍。采用標(biāo)準(zhǔn)圖像處理內(nèi)核時,性能提升可達(dá)2倍。
流水線構(gòu)成如下:
指令前端(3級)
指令解碼與分派(2級)
AR/標(biāo)量整數(shù)管道(5標(biāo)量寄存器/標(biāo)量流水線)
矢量DSP(3級)
讀取和寫入會在指令解碼一級完成后分別進行。同時,矢量執(zhí)行和標(biāo)量執(zhí)行也分開進行,這樣可以提高標(biāo)量性能,并提供了增加標(biāo)量cache的機會。該cache可以提高標(biāo)量處理能力50%,而且存儲器速度越慢,cache優(yōu)勢就越明顯(與沒有cache的情況相比)。
Q6的另一個新特色是添加了一個分支預(yù)測。流水線越深,這個功能就越重要,因為一旦錯過就必須清空并重新填充流水線。
Q6與P6向上兼容,為P6寫的任何代碼都可以無需修改在Q6上運行。但是Q6有一些新指令無法在P6上運行。
憑借AXI4互聯(lián)技術(shù),Q6可以在多處理器環(huán)境中運行。用戶不僅可以使用多個Q6 核,在VQ6的系統(tǒng)中增加VisionC5來分擔(dān)AI的處理。
Q6編程
在芯片上設(shè)計一大堆高性能處理資源是很容易的,但程序員可能最終無法從高層軟件開發(fā)中獲得這些處理資源。AI采用多種框架,Q6可以實現(xiàn)以下功能:
安卓神經(jīng)網(wǎng)絡(luò):在安卓平臺(即非蘋果智能機)上實現(xiàn)本地AI應(yīng)用
TensorFlow、TensorFlow Lite、Caffe
定制層支持:用戶可以在標(biāo)準(zhǔn)網(wǎng)絡(luò)基礎(chǔ)上自行添加特殊功能
支持多種標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)(MobileNet、Inception、Resnet、VGG、Segnet、FCN、YOLO、RCNN、SSD等)
安卓神經(jīng)網(wǎng)絡(luò)(ANN)相對比較新,去年10月剛剛發(fā)布,到現(xiàn)在也就半年的時間。ANN提供的神經(jīng)網(wǎng)絡(luò)API可以讓開發(fā)者無需關(guān)注具體AI處理是在應(yīng)用處理器(通常是高端ARM處理器)還是在專有的AI DSP上執(zhí)行。。Q6支持運行在安卓8.1系統(tǒng)(Oreo)的ANN,可實現(xiàn)實時的優(yōu)化執(zhí)行。右圖顯示的是ANN各組件的協(xié)作方式。作為專用處理器(也可稱DSP,術(shù)語不同而已)的Q6位于流程的中心。
上圖中顯示的是現(xiàn)有Tensilica AI工具鏈,也稱為XNNC(Xtensa神經(jīng)網(wǎng)絡(luò)編譯器)。該工具鏈需要一個神經(jīng)網(wǎng)絡(luò)描述符(在Caffe或Tensorflow框架下)將其編譯成可以在Q6(或P6、C5)上運行的代碼。它可以自動處理許多管理工作,如DMA和tile管理。Tensilica AI處理技術(shù)采用8位定點權(quán)重,但經(jīng)過幾年的發(fā)展,32位浮點和8位定點也能實現(xiàn)同樣的精度了(約0.5%量子化誤差),其好處就是可以節(jié)省大量的功耗和面積。
對于HDR、語音身份認(rèn)證、圖像穩(wěn)定等特殊算法,Cadence正與相關(guān)領(lǐng)域的合作伙伴展開廣泛合作。我們還是Khronos公司OpenVX工作組的負(fù)責(zé)人,推動視覺處理分流標(biāo)準(zhǔn)的開發(fā)。
-
AI
+關(guān)注
關(guān)注
87文章
30151瀏覽量
268422 -
adas
+關(guān)注
關(guān)注
309文章
2168瀏覽量
208524
原文標(biāo)題:新的AI時代需要新架構(gòu):Tensilica Vision Q6
文章出處:【微信號:gh_fca7f1c2678a,微信公眾號:Cadence楷登】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論