一般來說,人工智能的發展主要取決于兩大基本要素:算力和算法。自動駕駛作為目前技術投入較大、商業落地較早、市場前景廣闊的人工智能應用,其主控芯片的算力也被業內拿來作為評價優劣的主要標準。
為何自動駕駛需要的算力越來越大 ? 僅僅還在幾年之前,ADAS智能駕駛輔助的芯片AI算力才幾個TOPS,但轉眼間100TOPS已經成為中高端自動駕駛車型的標配了。
傳感器增多
一輛自動駕駛車輛裝載的傳感器,一般包括前視、后視、環視攝像頭,再加上激光雷達、毫米波雷達,未來車上的傳感器數量越來越多。傳感器數量的增多帶來的是傳感器數據量呈現幾何數量的增加。如果不對相關數據進行壓縮或結構化處理,一天能收集到幾百TB的數據。這就帶來一個需求,需要對這些本地數據進行分析、整理、壓縮,再上傳到云端。這要求在車端擁有強大的數據分析能力和計算能力。
大算力模型的突破
ChatGPT讓業內看到了高計算量和大參數量模型的結合,對于算力提出了越來越高的要求。 在自動駕駛的早期1.0時代,整套系統從感知到地圖融合再到規劃控制都是基于規則構建的。輔助駕駛功能更強調決策控制,如橫向控制和縱向控制。然而,基于規則的系統與深度學習神經網絡不同,無法進行端到端訓練,導致大量規則調試。規則系統面臨的挑戰包括難以預期的延遲和響應。盡管1.0時代部分模塊采用數據驅動方法,但整個系統仍以人制訂的規則為主導。
進入了自動駕駛的2.0時代,由人制訂的規則開始讓位于數據驅動,利用神經網絡為代表的智能計算來取代邏輯計算。ChatGPT就是一個典型的智能計算的代表。以上圖為例,藍色部分是智能計算,可以用數據驅動方式軟件2.0的方式來實現。天藍色部分則是邏輯計算,通過程序表達規則跑在CPU上,這可以理解為是兩代的計算架構。事實上,智能計算對算力需求在7年間提升6倍,如圖像識別和自然語言處理任務性能持續提升,但背后算力需求也在快速增長。
簡單來說,傳統的計算架構是通過程序對各種規則進行描述。在自動駕駛領域,就是通過很多的ECU來分別實現設置好的程序。以座艙域為例,座艙域中的HMI功能對用戶了解自動駕駛系統的狀態、性能、特點和功能非常重要,有助于建立人機互信。特別是L2+、L2++和L3級別的自動駕駛中,沒有良好的HMI,用戶會擔憂自動駕駛的狀態。而HMI則主要用到智能計算。 因此,從大趨勢來講,整個芯片占比越來越高的一定是智能計算,而通用邏輯及規則計算的占比也會緩慢增長,但是增長速度遠遠比不上智能計算。智能計算的比例提升才是算力需求增長的關鍵。
未來汽車電子電氣架構將變得更加集中與高效。隨著汽車電氣架構從分散的ECU到集中的DCU域控制器,再走向中央計算,各個車控底盤控制呈現中央高度集中式的高效計算和靈活快速計算。智能計算逐步取代邏輯計算,成為核心。類似人體神經系統,中央計算相當于大腦,控制域則類似脊柱和神經末梢,需要快速響應但算力要求相對較低。高成本、高功耗的計算無法部署在車輛各處,仿生角度看也是合理的。 中央計算使汽車硬件升級更容易,如同服務器可插拔。以前,更換車載硬件或域控較困難,因為專門設計的硬件盒子涉及供電、散熱等定制設計。未來電子電氣架構將實現高效計算與快速響應,為汽車智能化發展奠定基礎。
芯片計算架構的變化
PC時代以CPU為王,智能手機時代CPU和GPU的重要性逐漸平衡,多媒體與圖形渲染需求增加。到了智能汽車時代,AI計算的需求大增,如果仍然用GPU來做AI運算,成本太高,這就需要重新設計專用計算架構。于是各種NPU、XPU應運而生。
高算力必然帶來更好的體驗嗎
? 既然算力需求在自動駕駛中越來越大,那么是否高算力就會帶來好的用戶體驗呢?算力是否是衡量自動駕駛芯片的唯一標準? 當然不是,實際上在自動駕駛領域,不少高端車型在量產時搭配了高算力,但實際體驗并不出眾,與低算力的車型體驗并沒有實際差別。而由于芯片受摩爾定律影響,有可能一年后同等算力的平臺價格會大幅度降低。 以特斯拉為例,發布HW3.0時部署了兩顆72TOPS算力芯片,總算力為144TOPS。與基于英偉達平臺的HW2.5相比,峰值算力提升僅幾倍,但圖像處理幀率提升了21倍。因此,雖然峰值算力提升有限,實際處理性能卻大幅增長。
另一方面,物理算力越大帶來的成本也會越高,但不一定會帶來真實算力的提升。什么是真實的算力?不是每秒鐘能進行多少次的計算,而是每秒鐘能處理多少幀的圖像。很多廠商宣傳的算力是CPU、GPU的頻率,NPU的TOPS,但用戶能體驗到的則是FPS。TOPS和FPS之間差異大,因為算法快速演進,計算架構、軟硬件設計優秀程度差異很大。 摩爾定律指出算力每18個月翻倍,但近十幾年速度減緩,半導體芯片性能提升接近飽和。在后摩爾定律時代,芯片優化需先進工藝制程、封裝架構,以及軟硬件架構支撐高速成長。傳統芯片廠商關注的是每瓦或每美金的峰值算力,給出的則是每秒計算次數的提升。但對于自動駕駛廠商來說,他們需要的是真實計算效能和每秒處理幀率的提升。
實際上過去9年中,圖像識別、語音識別、自然語言處理任務所需計算次數每9-14個月降低一半,這得益于算法的迅速提升。可以說,算法的提升已經遠遠超過了摩爾定律的發展。 從最新的神經網絡算法的演進趨勢來看,貝葉斯架構高效支持Transformer,如Swin Transformer,獲2021年計算機視覺領域最高獎馬爾獎,是目前效果最好的解決圖像識別、檢測、分割問題的基礎架構。 2017年發布自研的FSD芯片時,特斯拉創始人馬斯克便以此前應用的英偉達Drive PX2作比,從算力來看FSD是Drive PX2的3倍,但在執行自動駕駛任務時,其FPS是后者的21倍。GPU的看家本領便是圖像識別。
為何GPU發明者英偉達的Orin會在測試中表現不及算力只有一半的地平線征程5?部分核心原因在于安培(Ampere)架構和貝葉斯(Bayes)架構設計出發點的差異。 地平線的征程5芯片于2021年發布,擁有128TOPS超強算力,是國內首款百T算力芯片。目前征程5已用于10個車型,去年出貨10萬+。與主要競品(GPU架構,峰值算力2倍以上)對比,征程5在處理速度方面更快。性能達到1500+FPS,端到端處理延遲最快60毫秒,功耗不超30瓦。之所以能做到這一點,得益于地平線的BPU架構。 BPU是地平線自主設計研發的創新性智能計算架構,具有高性能、低功耗、低成本等優勢,可將算法集成在智能計算平臺上,提供設備端上軟硬結合的智能計算解決方案。貝葉斯是地平線推出的第三代智能計算架構,專為高等級智能駕駛應用打造,具備高性能、低能耗、低延遲的特點,凝聚了對深度學習和智能駕駛場景的深度洞察。此外,地平線智能計算開發平臺基于征程5打造,包含芯片開發套件、量產級硬件參考設計、軟件開發平臺和參考算法等,生態伙伴能夠在地平線的芯片上快速部署智能駕駛算法應用,開發差異化產品方案,搶占市場先機。
地平線正在研發名為納什的下一代BPU架構,相對于征程5芯片的BPU有顯著改善。納什采用了更深層次的存儲架構體系,同時提升了計算陣列規模,從而進一步提升了峰值算力。此外,納什還增強了數據排布的轉換引擎和加入了高性能的浮點加速單元,從而使得算法的精度和可驗證性都得到了很好的提升。另外,地平線科技的引擎兼數據流動也考慮了能效和靈活性。數據排布的轉換引擎大幅增強,能更好地應對新形態算法,如以Transformer為代表的算法對于數據的data layout進行更靈活、高效的轉換需求。這是非常重要的,因為在整個Transformer算法中有大量的數據操作,這可能會形成計算架構的瓶頸。同時,地平線還首次加入了一個高性能的浮點加速單元,使得算法的精度和可驗證性都得到很好的提升。
點評
不服跑個分,在自動駕駛芯片領域行得通嗎
最后,如何評價一款好的自動駕駛芯片?對于剛剛接觸自動駕駛汽車的消費者來說,要快速地對不同廠商、不同品牌型號建立一個初步印象,參數對比是一個比較直接的方法。
自動駕駛芯片主要競爭者與產品對比
來源:光大證券研究所
在2022年之前,自動駕駛芯片的市場宣傳主要還是按照AI算力、功耗、算力/功耗、制程等參數進行對比,這種宣傳方式不能說是錯的。不過這種參數確實無法直接反映用戶的真實體驗。地平線聯合創始人兼CTO黃暢博士認為,一款好的自動駕駛芯片應該是六邊形戰士,同時具備高能效比、算力、靈活性、適配性、安全認證和開發便捷性。也就是說,符合木桶原理,自動駕駛芯片的最終用戶體驗取決于最短的那一塊板。
不過到了2022年,似乎游戲規則發生了變化。英偉達(NVIDIA)推出的Thor芯片系統在自動駕駛和智能座艙領域引發了巨大震動,直接將算力干到了2000TOPS。這就讓自動駕駛領域的算法公司和準備自研芯片的車企面臨壓力。過去受限于算力限制,迫使芯片和算法公司不斷研究新的算法和更高效的專用芯片,尋求在有限的算力下實現更高效、輕量化的解決方案。然而,英偉達推出Thor芯片,承諾兩年內提供八倍算力,使得4000TOPS成為可能,這似乎使得算法優化變得不再那么重要。 這讓人想起比爾蓋茨與喬布斯的邏輯:喬布斯追求專有程序、專有硬件,精打細算;而比爾蓋茨則依賴硬件廠商解決問題。
如今,英偉達正是采用這種方法,用算力暴力地解決算法精度問題。如果這條路真的行得通,就算某些廠商的算法不夠好,但仍然可以通過超強的算力來彌補算法的不足。 所以分析了半天,最后似乎又回到了起點:自動駕駛芯片仍然是算力為王? 筆者認為應該分階段來看待這個事情。現階段高算力必然帶來高成本,不是所有的車廠和消費者會為高算力買單,這取決于他們自身的定位。未來自動駕駛市場將在十年內轉向低算力、中算力和高算力的全場景市場。硬件將隨著普及成本進一步降低。
到時候可能市場會自發地形成高中低三個不同的市場,分別對應高中低三種不同的算力。而這三種市場將隨著硬件成本的降低不斷轉移。比如目前50-100tops的算力范圍屬于中高端市場,但未來有可能平民化,而2000tops的產品則將在一段時間成為高端旗艦車型標配。 最終有一天,市場和消費者都會對自動駕駛芯片的算力回歸理性,選擇最適合自己的功能和需求。事實上,這種現象在手機市場已經發生過一次了。曾幾何時新手機發布,廠商動不動“不服跑個分”,但到了今天消費者顯然已經不再把手機芯片跑分當成唯一指標。大家都意識到,合適的硬件算力和算法匹配才能發揮最佳智能化效果,綜合實力才是衡量智能芯片的最重要因素。
最后,筆者認為,隨著算力提升的速度加快,以及硬件成本的下降,未來智能汽車領域將出現一個新的硬件升級市場:通過更換運算模塊來進行算力提升。這種現象在PC市場也已經發生過一次了。
編輯:黃飛
?
評論
查看更多