今日,Arm生態系統合作伙伴華為于北京召開發布會,正式在國內發布搭載10nm工藝制程的年度旗艦處理器麒麟970,同時也是全球首款內置神經元網絡單元(NPU)的智能芯片。
在核心配置方面,麒麟970采用了4*Cortex-A73+4*Cortex-A53的大小核設計,其中A73大核主頻為2.4GHz,A53小核主頻為1.8GHz。在GPU上,麒麟970為Mali-G72 MP12,在視頻方面首次支持HDR10,支持4K@60fps視頻解碼。相機雙ISP,支持人工智能場景識別、人臉追焦、智能運動場景檢測,夜拍效果得到加強。
作為Arm今年新發的高端GPU,Mali-G72已“裝機”麒麟970,它有哪些強大之處?它又是如何對人工智能與機器學習算法進行支持的呢?
機器學習與GPU技術的完美Match人工智能的最近一次浪潮起源于 2011 年前后深度學習(Deep Learning)引起的大發展。在其背后,快速發展的 GPU 功不可沒。機器學習作為人工智能領域的一個小分支,如今已是移動計算的關鍵應用場景之一。通常而言,機器學習在云端上進行,運用訓練神經網絡的大量數據集實現智能連接,但越來越多的數據也需要在設備端進行,比如像翻譯這樣的簡單任務,通過云端持續傳送大量數據,不但增加成本,而且速度也很慢,這也是為何業界開始研究“將機器學習界面放到設備本身”的原因。
搭載了Mali-G71的華為Mate 9便是一次不錯的嘗試,它其中的機器學習算法會找出你最常用的應用程序,并對其能耗性能進行優先設置,保證實現最優性能,其中,基于Bifrost架構的Mali-G71功不可沒,而Mali-G72性能則更優。相比Mali-G71,Mali-G72性能提升了40%、能效提升25%、每平方毫米的芯片面積效能提升20%,并針對機器學習進行了優化,為機器學習效率帶來17%的提升,從而使得Arm能夠在整個SoC上更高效地現實分布式智能。期待搭載Mali-G72的新機華為Mate 10的上市。
為何Mali-G72這么牛?除了繼續保持Bifrost架構最主要的高效能特色外,像是CPU與GPU彼此間完整的系統一致性、索引式定位著色器等,Mali-G72同時還有多項新武器。Arm增加了區塊緩沖存儲器(tile buffer memory),以便讓GPU在每個運行區塊(tile)支持更多的儲存空間,也重新平衡了執行引擎的數據路徑,移除某些鮮少使用的指令,并以更簡單的指令順序取而代之。同時,Arm針對更多復雜運算進行了優化,為了進一步降低帶寬,增加了一級緩存與寫回緩存的大小,同時也改變指令緩存邏輯,以便在不增加整體面積與耗電情況下進行更佳利用,并減少對復雜內容產生的緩存遺漏情況。綜上,Mali-G72算法優化及增加的高速緩存已經非常成熟,借由此大幅降低帶寬,可以實現機器學習最大的效率與效能。
Arm GPU架構使用發展史
2007年Arm推出基于Utgard架構的Mali-200,當時面向的設備分辨率較低,內容比較簡單。Utgard架構的特點是并非像現代GPU設計那樣采用了統一渲染引擎,它依舊是一個典型的頂點和像素分離式渲染的產物。
2010年末,Arm推出基于Midgard架構構建的首款GPU Mali-T604,面向的設備可達1080p HD的分辨率,內容變得越來越復雜了。從架構上來看,Midgard是之前Utgard的繼承者,但是統一渲染架構和分離式渲染架構的差異如此之大,使得這兩個架構又不能直接比較。當然,Midgard還是繼承了不少Utgard中優秀的部分,尤其是部分周圍功能模塊。
2016年,隨著內容變得越來越精細,越來越復雜,在GPU渲染的角度來說會有更復雜光影的處理,包括全局光照的處理。從顯示面板的角度來看,未來4K的面板也會大量涌現。為滿足這樣的市場需求,Arm推出了基于嶄新GPU架構Bifrost的產品。雖然Bifrost架構看上去與Midgard類似,但其內部的功能模塊均有顯著的提升,基于前面提到的各種各樣的應用場景,包括設備的需求,以及面對的挑戰,Bifrost架構都可以解決這樣的問題。
-
gpu
+關注
關注
28文章
4703瀏覽量
128725 -
AI
+關注
關注
87文章
30239瀏覽量
268475 -
Huawei
+關注
關注
1文章
176瀏覽量
20132
原文標題:揭秘華為首款移動AI芯片麒麟970背后的GPU技術創新
文章出處:【微信號:arm_china,微信公眾號:Arm芯聞】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論