2023年城市NOA成為自動駕駛新的戰場,各車企紛紛發布新產品、立下新目標,要在高階輔助駕駛的賽場上大展身手。感知模塊作為自動駕駛流程中的第一環,也是將物理世界與車機大腦相連接的重要一環。如何讓汽車像人類一樣,將“眼前所看”轉化為“腦中所想”,進一步變成“所作所為”,對于算法模型有很大的考驗。基于Transformer模型的BEV技術成為當下的熱門選擇。 億歐汽車始終關注智能電動汽車領域的技術進展與商業動態,特此撰寫BEV+Transformer系列文章,從技術、商業、趨勢三個維度分別入手,深度剖析自動駕駛感知模塊發展的新浪潮。
01??高階智能駕駛感知模塊:汽車成為機器生物的第一步
實現高級輔助駕駛乃至自動駕駛的第一步就是感知,如何更準確、高效地感知到路面信息是智駕系統良好運轉的起點。路面信息包括靜態和動態兩類,靜態信息包括墻壁、立桿、車道線、車位線、斑馬線等,以及其他路面障礙物,動態信息則是指行人、車輛等其他交通參與方。 正如時任特斯拉Autopilot負責人Andrej Karpathy在2021年Tesla AI DAY上所講,自動駕駛研發像是“從頭開始合成人造動物”,從人眼所及到大腦所感,信息在人類頭腦中經歷了2D到3D的轉換,而這一轉換同樣是高階智能駕駛的感知模塊所需要學習的能力。
02 ?感知路線:純視覺與多模態融合兩條路線并行
從感知角度來劃分,目前高階智能駕駛領域分為兩派,一派為特斯拉和mobileye堅持的純視覺感知技術路線,其余則大多選擇多傳感器融合的技術路線。 純視覺感知方案只需將攝像頭收集到的圖像數據進行特征提取、處理、轉化為3D數據;而多傳感器融合的方案采用攝像頭與激光雷達相結合,通過多種工作原理提升感知精度,也能在某一設備失效的情況下起到冗余的安全防護作用。但多傳感器方案中,不同工作原理下,傳感器收集到的數據類型、所處坐標系都不同,攝像頭收集到的視覺數據屬于2D圖像空間,激光雷達獲得的點云數據屬于3D空間,處理與融合這些數據的策略及路徑成為有效保留數據信息的關鍵。
03? 融合方式:不同邏輯下數據處理各有利弊
具體來講,基于融合的不同位置,可以分為前、中、后融合三種方式,三種方式分別發生在數據處理的不同階段,在信息保留、算力使用、通信速率等多方面也具有不同特征。
3.1? 后融合:應用廣泛但存在先驗式局限
在BEV大范圍應用前,最常用的是后融合方案,也稱為“目標級融合”。 顧名思義,后融合方案中,不同傳感器獲得的數據通過不同網絡算法獨立處理,處理后得到各自的目標數據,再將目標數據在決策層由主處理器進行融合。
例如,針對圖像數據,算法逐張提取2D特征后,對應轉化到3D空間中,得出物體邊界信息;針對點云數據,算法直接進行3D檢測得到對應結果。各自處理后,所有的輸出結果通過基于規則的(rule-based)融合方式融合到同一坐標系中。 可見,在融合之前,不同數據處于各自的處理通道中,算法只需適配對應類型的數據,融合模塊設置不同場景、不同傳感器的置信度,最終輸出融合結果用于決策。整體更易解耦,既易于整車廠自主研發,也便于Tier 1按照下游需求進行模塊化定制。 但是,正是由于后融合方式是基于規則處理的,因而存在“從結果反推過程”的先驗式思路,無論是不同數據處理過程中的目標識別,還是對傳感器置信度的設置,都是以預設結果為導向的,不僅會造成信息損耗、成本升高,也難以突破當下認知局限。
3.2 前融合:融合形成超級傳感數據,但算力要求高
與之對應的,是傳感器前融合方案,也稱為“數據級融合”。 前融合方案將融合步驟前置,所有傳感器的識別結果連同其他自動駕駛所需數據,統一融合到為一整組數據,再將融合后的所有數據依據目標進行感知。 前融合方案下,相當于不同的傳感器組合為一個更加超級、多能的傳感器,既能看圖、又能探測,感知算法無需區分數據來源與類型,直接進行綜合處理。
顯然,前融合方案的邏輯更加類似于人眼到大腦的工作方式,將所有數據整體分析,增強了數據關聯性,也減少了信息丟失。 但與此同時,異構數據的融合對于算法也有著極大的考驗。首先龐大的數據量對于存儲能力、算力都有較高要求,而且由于坐標系的不同,不同數據間的轉換效率和效果也需要不同的算法邏輯來實現。
3.3 中融合:平衡規則局限與算力要求,適應BEV視角
基于架構特性和操作可行性,目前業內更青睞中融合方案,即“特征級融合”,這一方案也更適合BEV視角。
相較于前、后融合,中融合將特征提取置于融合之前,但將數據感知置于融合之后。換言之,中融合方案先通過神經網絡提取數據有效特征,將有效特征與BEV空間特征相融合,最終輸出BEV視角下的整套數據,用于決策層的感知和輸出。 中融合方案中,數據處理更直接,信息損耗更少,相應地,算力需求也一定程度降低,研發重點來到了神經網絡模型的更新上。隨著深度學習的發展,Transformer的應用突破了過往算法依賴人為規則所帶來的認知局限和邏輯上的反復。 04 ?視角轉換:前視放射轉為俯視全景,BEV+Transformer彌補原有不足 不同融合方案的選擇和迭代的背后,是感知視角的根本性轉換。
4.1 2D直視圖+CNN:感知不夠全面、連貫,后融合學習速度慢
在此之前,傳統的自動駕駛技術可以概括為“2D 直視圖+CNN”時代,路況感知信號由相機收集到的 2D 圖像和雷達收集到的 3D 圖像組成,感知數據基于每個傳感器的位置形成放射圖像,不同感知結果通過 CNN(卷積神經網絡)進行后融合,通過大量計算統一升維到 3D,符合 3D 狀態下車機行駛的坐標系。 這樣的方式存在很多欠缺和隱患: · 畫面遮擋部分難以預測,矩形框標注損失細節,不夠精確; · 高度或深度方面認知存在誤差,坡度影響難以準確預測; · 缺少時間信息,感知與預測的連續性難以確認; · 多種感知信息進行后融合,時間與人力成本較高。 在這種情況下,感知的思路是將“所見”與“所學”相對應,試圖成功“認出”路上有什么,就難免出現“擋住了所以沒看見”“看見了但認錯了”“不認識就當不存在”這些看似好笑、實則危險的情況。
4.2 BEV+Transformer:上帝視角減少前視局限,多模態數據融合是關鍵
1)路徑:從2D到3D到4D,算法推動端到端優化 BEV+Transformer方案應運而生。 BEV(Bird's Eye View),是指一種鳥瞰式的視角或坐標系,可以立體描述感知到的現實世界,相當于在車輛正上方10-20米處向下俯視車輛及周圍環境,也被叫做“上帝視角”。相對應的,BEV也代指將視覺信息由圖像空間端到端地轉換到BEV空間下的技術。 在BEV視圖中,道路信息自上而下展示在以自車為中心的坐標系中,避免了原先前視放射視角下的尺度、遮擋等感知問題,信息展示更加全面。但視角變化后深度的估計難度增大,前融合方案的處理難度增大,如何創新算法,將不同特征最優化表達是目前BEV研究中的重點。 ?
盡管各家研發進度和細節略有不同,但BEV+Transformer方案的整體思路基本一致:“輸入-提取-轉換-融合-時序-輸出”,并在這個過程中完成“2D到3D到4D”的轉換。 · 輸入:將多個攝像頭數據輸入到共享的骨干網絡(Backbone) · 提取:骨干網絡提取攝像頭數據中的特征(feature) · 轉換:所有源于攝像頭數據的特征轉換到BEV空間中(2D->3D) · 融合:圖像數據特征與其他傳感器數據特征融合 · 時序:增加時序信息,形成具有時空連續性的感知信息(3D->4D) · 輸出:輸出感知結果,包括靜態語義地圖、動態目標檢測以及運動預測等,用于決策規控 Transformer作為一種新型神經網絡架構,相比傳統神經網絡(如CNN),可以直接進行2D、3D不同序列之間的轉換。Transformer采用交叉注意力機制,并行訓練數據,在跨模態融合以及時序融合過程中,能夠更加全面地在空間時序上建模,形成時序融合下的4D空間信息,從而使感知結果更加連續、穩定。 在此基礎上,BEV算法進一步迭代為Occupancy Networks(占用網絡),更加直接地打造3D空間。有別于感知2D圖像、提取像素(pixel)轉化為3D特征,Occupancy Networks直接感知3D空間中的體素(voxel),也就是將世界劃分為多個大小一致的立方體,快速識別每個體素是否被占用,繼而判斷車輛是否要躲避。Occupancy Networks可以在10ms內完成計算,感知更高效、結果更精準,將BEV空間在高度上進行了進一步擴展。
2)優勢:全局視野、4D時空,感知更穩定,預測更可靠 整體來講,基于Transformer的BEV感知技術,對過往感知過程中的弊病給出了不同思路的解決方案,具有明顯優勢。 1. 俯視圖少有遮擋,算法也可以對被遮擋區域進行預測 2. 異構數據進行特征級融合,減少層層處理以及先驗規則帶來的信息丟失 3. 多模態數據特征在同一空間中融合,信息關聯性更強 4. 引入時序信息,感知結果更連續穩定 5. 多模態數據統一在以自車為中心的同一坐標系中,下游規控模塊提取更高效 6. 感知任務在BEV空間運行,迭代更快,可實現端到端優化 3)應用:處理多類長尾場景,加速去高精地圖 因此,BEV+Transformer方案能夠處理多種自動駕駛的corner case場景。
1. 感知復雜道路:在交通擁堵、路口復雜、路面不規則等情況下,BEV+Transformer以連續的俯視視角生成更全面的感知情況,以做出更可靠的路徑規劃;甚至在路面狹窄、有遮擋的情況下,俯視視角、跨模態融合、注意力機制下的算法,這些都能夠使車輛更好地識別周邊環境。
2. 應對惡劣天氣:在雨雪霧霾等惡劣天氣條件下,攝像頭和激光雷達的感知效果都會受到影響,BEV+Transformer方案相比能夠減少損耗,避免各傳感器“各自為戰”。
3. 應對動態交通:高階智能駕駛不僅需要在常規交通中平穩運行,還需要對并車、合流等復雜任務作出反應,另外還需要應對交通事故、路段封閉等突發情況。BEV+Transformer能夠實時輸出交通狀況,并對路面行人、車輛作出預測,便于智駕系統做出更加合適的應急策略。 更重要的是,BEV+Transformer的方案將靜態道路信息與動態道路參與方統一到了同一個坐標系下,通過實時感知與轉換,在行駛中即可實時生成“活地圖”,推動自動駕駛中“感知-決策-規劃”的任務進行。 這也就意味著高精地圖不再成為強需求。 對于車企來講,使用高精地圖一直面臨著“資質門檻高、采購成本高、維護成本高”的“三高”難題,如果能夠將BEV+Transformer上車使用,擺脫高精地圖將指日可待,在當下“以價換量”的市場競爭中,又能向前一大步。
審核編輯:黃飛
?
評論
查看更多