10月31日訊,自動駕駛領域的先鋒Waymo,作為Alphabet旗下的一員,長久以來將其與谷歌DeepMind的緊密合作及深厚的AI研究底蘊視為其在自動駕駛競賽中脫穎而出的關鍵。如今,Waymo再邁新步,為其機器人出租車業(yè)務引入了一種基于谷歌多模態(tài)大語言模型(MLLM)“Gemini”的全新訓練模型——“端到端多模態(tài)自動駕駛模型”(EMMA)。
Waymo最新發(fā)布的研究論文揭示了EMMA模型的面紗。這一創(chuàng)新的端到端訓練模型能夠解析傳感器數(shù)據(jù),預測“自動駕駛車輛的未來行駛軌跡”,從而輔助Waymo的無人駕駛車輛做出精準決策,無論是選擇行進路線還是規(guī)避障礙物。
尤為引人注目的是,這是自動駕駛領軍企業(yè)首次公開表示計劃將MLLM技術融入其核心業(yè)務,預示著MLLM的應用范圍或將超越聊天機器人、郵件整理及圖像生成等傳統(tǒng)領域,向自動駕駛這一前沿陣地拓展。
傳統(tǒng)自動駕駛系統(tǒng)往往采用模塊化設計,針對感知、地圖構建、預測及規(guī)劃等特定功能分別開發(fā)。盡管這種模式在過去取得了顯著成效,但Waymo指出,其存在可擴展性問題,模塊間的誤差累積和通信限制影響了整體性能,且面對新環(huán)境時適應性不強。
Waymo認為,像Gemini這樣的MLLM能夠有效解決上述問題。它們作為互聯(lián)網大數(shù)據(jù)培育的“通才”,擁有超越常規(guī)駕駛經驗的廣泛“世界知識”,并通過“鏈式推理”等先進技術展現(xiàn)出強大的邏輯推理能力,能夠模仿人類思維,將復雜任務分解為邏輯步驟。
據(jù)Waymo介紹,EMMA模型在應對復雜交通環(huán)境時表現(xiàn)出色,如動物穿越道路或道路施工等情況,都能為無人駕駛汽車規(guī)劃出合理的行駛路徑。
值得注意的是,特斯拉等競爭對手也在積極開發(fā)自動駕駛汽車的端到端模型。特斯拉CEO埃隆·馬斯克曾宣稱,其最新版本的FSD 12.5.5采用了“端到端神經網絡”AI系統(tǒng),直接將攝像頭圖像轉化為駕駛決策。
盡管Waymo在部署無人駕駛車輛方面領先于特斯拉,但它同樣對端到端系統(tǒng)抱有濃厚興趣。Waymo表示,其EMMA模型在軌跡預測、物體識別和道路理解方面取得了優(yōu)異成績。
然而,EMMA也面臨挑戰(zhàn)。Waymo承認,在將模型投入實際應用前,還需克服一些障礙,如EMMA目前無法整合來自激光雷達或雷達的3D傳感器輸入,原因是“計算成本過高”,且僅能處理有限數(shù)量的圖像幀。
此外,研究論文中未提及的一個潛在風險是,像Gemini這樣的MLLM可能會產生“幻覺”,這對于容錯率極低的無人駕駛汽車而言是極大的挑戰(zhàn)。因此,在MLLM能夠大規(guī)模應用于自動駕駛之前,仍需開展更多深入研究。
-
谷歌
+關注
關注
27文章
6141瀏覽量
105087 -
自動駕駛
+關注
關注
783文章
13682瀏覽量
166137 -
waymo
+關注
關注
2文章
312瀏覽量
24656
發(fā)布評論請先 登錄
相關推薦
評論