全球公認最領先的無人車公司Waymo的計算平臺是誰提供的?參見下面這個鏈接,Waymo肯定不想讓太多人知道。
從谷歌2009年開始開發無人車,計算平臺一直都是用英特爾的,直到最新的克萊斯勒大捷龍無人車,采用了英特爾的Xeon服務器芯片、Altera的FPGA和英特爾的以太網關芯片,據說還使用了XMM系列Modem芯片做數據傳輸。
實際不止是Waymo,百度計算平臺有兩部分,一部分使用***Neousys Nuvo-6108GC工控機,這款工控機使用英特爾雙至強E5-2658 V3 12核CPU,主要用來處理激光雷達云點和圖像數據。另一部分為Xilinx的KU115,這是一款2014年底發布的強大的FPGA。福特、通用也很有可能采用了類似的設計,就是英特爾的CPU+FPGA計算平臺。Waymo、百度、福特、通用代表著全球最頂尖的無人車技術,也是全球最大的無人車車隊。
現在的FPGA早已不是當年的簡單地把寄存器和LUT整合在一起的白紙了,而是越來越像ASIC,或者說SoC。現在的FPGA都包含了復雜的接口資源,收發器資源,存儲器資源和大量的DSP資源(擁有類似GPU的強大浮點運算能力),有些則直接加入了多個ARM內核。單純的FPGA幾乎不存在了。現在的FPGA就是一個小的系統。
智能駕駛和人工智能領域不可能用ASIC,因為ASIC的開發周期太長,最少也需要3-5年才能量產,而人工智能算法迭代速度很快,幾乎是每半年就迭代一次,而智能駕駛的傳感器領域日新月異,特別是激光雷達領域,新技術層出不窮。所謂人工智能ASIC,沒出廠就已經過時,被時代拋棄了。
上圖為Waymo的計算平臺架構,采用Altera的FPGA,可能是Arria 10 GT1150。售價大約4000到5000美元。Altera的FPGA共有四大系列,分別是頂配的Stratix系列、成本與性能平衡的Arria系列、廉價的Cyclone系列、帶NVM的MAX系列。Stratix系列多在近萬美元以上,Cyclone系列多在10-20美元之間,Arria系列大約在2000-5000美元之間。
Arria系列再細分10、V、II、GX四個系列,10系列為最新產品,于2013年推出,采用20納米工藝,GX為第一代產品,2007年推出,采用90納米工藝,II系列為2009年產品,采用40納米工藝,V系列為2011年產品,采用28納米工藝。10系列再分為帶ARM內核和不帶ARM內核兩大類。ARM內核為雙A9內核。
GT1150除了標準FPGA的1150K個邏輯元素外,還擁有1518個硬核單精度浮點運算乘法器/加法器,3036個18*19乘法器。最終能夠獲得3340GMACS(等于每秒百萬次的定點乘累加運算),還有1366 GFLOPS的浮點運算能力。Stratix系列的某些產品擁有9200 GFLOPS的浮點運算能力。
Xilinx方面,以最常見的KU115為例。
以深度學習、高性能運算、圖形科學領域最常見的Kintex FPGA來看,國內百度、騰訊、阿里都采用了KU115做計算加速。這款FPGA集成了大量資源,包括各種片上存儲器,Xilinx的FPGA中主要有分布式RAM 和 Block RAM 兩種存儲器。用分布式RAM 時其實要用到其所在的SliceM,所以要占用其中的邏輯資源;而Block RAM 是單純的存儲資源,但是要一塊一塊的用,不像分布式RAM 想要多少bit都可以。頂級的Virtex系列FPGA更繼承了高達8GB的HBM高寬帶內存。時鐘方面,有MMCM/PLL。MMCM(mixed-mode clockmanager):混合模式時鐘管理器,用于在與給定輸入時鐘有設定的相位和頻率關系的情況下,生成不同的時鐘信號。PLL(phase-locked loop):鎖相環,主要用于頻率綜合,使用一個PLL可以從一個輸入時鐘信號生成多個時鐘信號。這些主要用在收發器領域。
KU115里還包含5520個DSP,能夠大幅度提高圖像和視頻類任務的處理速度,這是類似GPU的并行運算架構,可以說這片FPGA還包含一個小GPU。這個DSP可以對應乘法累加器、乘加器或單步/n步計數器。級聯多個DSP48E邏輯片可執行復雜的功能。例如,不使用額外的FPGA架構資源的情況下實現復雜乘法器或n階FIR濾波器。對某些如FFT運算,速度大大提升。Virtex系列頂配有12288個DSP,性能達21897GMAC/s。
Xilinx的Soc+FPGA系列產品則完全可以叫SoC了,其不僅包含多個ARM CPU內核,還有針對安全領域的R5內核,還有Mali 400這樣的GPU,最夸張的是RFSoC把射頻的ADC/DAC也集成了,還有SD-FEC。
也有無人車基于Xilinx的Soc+FPGA,這就是Perrone Robotics,用兩片FPGA完成工控機的運算性能,架構如上圖。這家公司在2004年就成立了,這家公司是一家機器人軟件平臺開發公司,其為自動駕駛車輛以及通用機器人開發了一個完整的全棧實時的軟件。Perrone Robotics主要投資者是英特爾,德國工業巨人利勃海爾和FPInnovations。與激光雷達廠家Quanergy、Velodyne、Sick都有緊密合作。
別人家的無人車后備箱都是工控機,大風扇還有散熱片,而Perrone Robotics就用這么一個小盒子,里面核心正是Xilinx的UltraScale系列的XCZU9EG-FFVB1156ACZ1537FPGA。
ZU9EG并非此系列中最頂級的,除了600K的邏輯元素外,還有2520個DSP。相對KU115弱很多,但是ZU9EG擁有4個A53內核,主頻達1.5GHz,兩個應對實時任務的R5內核,主頻600MHz,還有一個Mali 400MP2 GPU內核,性能雖然只有12GFLOPS,總聊勝于無,并且還有2520個DSP嘛。
上圖為EG系列內部框架圖,跟SoC幾乎沒區別。
無人車領域比較新的技術如TSN網絡交換器,因為ASIC開發周期長,大部分廠家都會選擇用FPGA代替,此外TSN協議復雜,標準延續的周期很長,恐怕很長一段時間內都是用FPGA代替。
除了無人車,ADAS領域FPGA用的更多,奔馳S系列每輛車使用多達18個FPGA。FPGA最突出優勢是功耗極低,一般只有同樣性能GPU的1/10。這使得FPGA更容易通過嚴苛的車規級認證,特別是高等級的ISO26262認證。
以上為三款典型視覺類ADAS系統拆解,博世使用了Xilinx的芯片,從而減少使用一個MCU。TRW的SCam3用在通用汽車上,博世的MPC2用在大眾汽車上,Continental的MFC430TA用在豐田汽車上。雙目系統除了斯巴魯外都是使用Xilinx的FPGA。
最后是深度學習領域,隨著深度學習朝向低精度發展,FPGA大展宏圖的時機來了。
FPGA可以靈活對應不同精度的深度學習。
訓練階段用KU115做加速,推理階段用MPSOC。
說了FPGA這么多好處,但FPGA有個致命缺陷,那就是價格比較高。
-
英特爾
+關注
關注
60文章
9755瀏覽量
170676 -
無人車
+關注
關注
1文章
298瀏覽量
36407 -
waymo
+關注
關注
2文章
308瀏覽量
24622
原文標題:Waymo背后的巨人:英特爾
文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論