谷歌一直稱自己用實際路測和虛擬測試相結合的方式來訓練自動駕駛系統。到底兩者如何融合?在其中又遇到了哪些困難?應該如何解決?
前幾日,繼Uber之后,Waymo的無人駕駛測試車也撞了。幸運的是,只受輕傷。5月4日,在亞利桑那州錢德勒市,有人駕駛車輛由于某種原因跨過中間線撞向對向行駛的Waymo測試車,導致雙方車輛受損,無人駕駛安全員受輕傷。警方認為,Waymo車輛和安全員無須承擔責任。
看上去,該市警方已經適應了無人駕駛車輛是責任主體之一的現狀。盡管無責,也讓公眾認識到,在某些情形下,無人駕駛車輛對其他車輛不可預測行為的反應,并不比人類做得更好。在近乎對撞的過程中,Waymo沒有采取令人驚嘆的規避動作(也許保持車道更明智),但毫無反應就有點令人失望,無人駕駛測試車甚至沒有采取剎車等慣常措施。
Waymo將在內部徹查無人系統的訓練日志,但他們不會蠢到試圖搞懂車輛在“想”什么。他們只會從結果逆推,發現訓練系統中尚未完善、甚至尚未涉足的部分。
如何訓練一個“黑盒子”
這導致了谷歌“城堡”計劃曝光。谷歌一直宣稱自己用實際路測和虛擬測試相結合的方式來訓練自動駕駛系統。兩者如何融合,谷歌一直秘而不宣。
新的事故表明,谷歌仍然領先,但不再獨一無二。
無人系統制造出來,就像剛出生的嬰兒一樣,擁有用于感知外界環境的“感官”(攝像頭、毫米波雷達、激光雷達),也擁有高速大腦(計算單元、圖像處理單元),但“大腦”功能尚在分化中,需要教它識別環境中一切可能出現的人和物體。也可以教它一些基本的對策,但實際中它如何決策,研究人員并不知曉。對于人類來說,AI決策機制是一個“黑盒子”。這是很多人對此憂心忡忡的原因。
教無人系統分辨道路和其他可能遇到的一切,是訓練的第一步。就像教嬰兒看圖識物一樣。因為圖像的信息太豐富,難以建模,深度學習似乎能發揮特殊優勢。人類基于數百萬年的進化,往往只須直覺就可以在復雜局面中找到解決路徑,AI正在學習這一點,只不過遵循另一套規則。
深度學習既可以用于感知,也可以用于決策。比如的AlphaGo的走子網絡,就是一套DNN訓練系統。用最簡單的話說,就是根據當前狀態做出決策。它的設計者和訓練師不是要教它決策(事實上人類不知道系統將如何決策),而是教它一些基本知識。
在這個階段,識別環境是核心任務。物體、什么地方可以行駛(不能開上路肩和花壇)、合法行駛路徑等。
首先,在一大批車的圖像中提取基本特征,比如車的正面和側面大致的幾何形狀,令系統分辨出車的左側和右側(用不同特征標記)。
有了連續多幀的圖像,根據其間的連續變化,可以分辨車的行駛方向。并可以辨識出遠處視野中很小的車輛,比任何人類都看得遠、看得清楚。如何評估它們對自身的影響,將放在后面訓練。
其次,傳統圖像中,路肩和馬路本身顏色難以區分、立體視覺也很難辨別(畢竟高程差太?。?。人類是如何輕易識別的?靠陰影。區區10厘米的路肩,將形成一條連續暗色的窄帶區域。系統你學會了嗎?
用連續窄帶陰影(斷開的個別路段,正好可以做高危提醒信號),結合道線識別,勾勒出可行駛區域。
看上去很完美,可是有時候沒有道線、或者由于天氣道線難以識別。這種情況下,人類是如何駕駛的?斷續的樹木、街邊的排水明渠、兩側走動的行人,都可以成為判斷依據。而系統需要從大量的視頻中(實際上是多幀圖像)提取出人類策略,并加以優化。
Waymo期待自己的AI系統和明智的人類駕駛員一樣,采取幾乎相同的步驟,但比任何人類反應更迅捷、處置更果斷。但在5月4日的車禍中,這一點沒有得到體現,究竟是哪里出了問題?
訓練系統的局限
這表明,大量的虛擬環境訓練,至少有一部分沒有被用于實際場景中。也就是說,融合出了問題。
當無人系統具備的了辨識能力之后,它需要面對兩類場景:一類是真實世界,另一類是數字世界。從前者取得“實操”經驗后,在后者里面變換各種條件(比如將障礙物移動位置、讓行人的行為更加不可預測),不斷磨練應對策略,直到最優。
谷歌的專家承認,模擬不靠譜的人類行為極為困難。即便簡單的十字路口,無人系統也對不遵循信號的行人和摩托車感到困惑。經歷了一連串的剎車之后,無數車輛試圖從旁邊擠入,導致局面更混亂。
在數字化訓練系統中,Waymo再次簡化了路況。譬如兩條同向高速車道、只涉及兩輛車。A車搭載無人系統,B車將作為阻礙出現。
當A車以90公里的速度在內側道路直行,右側B車猛然超車并到A車前方,并且緊接著剎車。A車能否迅速、平穩地剎車,同時還要給后面車輛留出足夠的剎車時間?
B以各種方式、從不同角度阻擋A車,對于A車剎車過程的測試重復上百次。訓練系統記錄下來無人系統的表現,并對其中失敗的情形進行分析,優化后者的處置動作。
然后局面被設置得更復雜:城市多條車道,遇到在車道上后退車輛、路上突然出現滾動的籃球或者從隔離帶上突然躥出行人,考查無人系統將如何應對。
當然,程序中無法窮盡所有輸入條件。程序員們希望無人系統在數萬種情景中提煉出方法,以便在其他情景中也能做出理智決策。
5月4日的車禍,對于當前的Waymo測試車來說,可能屬于“超綱”情形。面對對向車輛猛沖過來,人類的問題在于沒有足夠的觀察、決策時間,以至于慌了手腳。
但無人系統不是這樣,在毫秒級的傳感器數據解算下,CPU準確地獲知了周圍所有車輛的即時位置,斜沖過來的車輛瞬時速度和加速度,預測了此后數秒內對方的連續位置。并算出如果不采取緊急制動+變換方向,1.5秒后將發生危及車內人員的劇烈碰撞。
是什么促使Waymo車輛做出不予理會的決定呢?是右側車道沒有機動空間,還是預測變換方向后無法保持車輛的穩定,抑或是急劇剎車也無法改變碰撞的結果,反而會因路面摩擦的不平衡使車輛側翻、從而導致更嚴重的后果?我們無法獲知決策過程,Waymo工程師們讀取數據可能解決一部分困惑。如果他們的結論和無人車當時的決策一樣——什么都不做更有利,那么就毫無問題。
問題在于,這樣的結論超出了人類的認知。面對危機我們總要做點什么,我們迅速提高腎上腺素水平、瞳孔放大、肌肉繃緊,血壓上升,以迎接挑戰。
將AI決策與人類比較,可能是不合適的。這反過來促使人們思考基于人類經驗的訓練系統有效性。
虛擬世界可能設置得太簡單了
Waymo的專家們吹噓他們是唯一一個采用“加速訓練系統”的公司,實際上,福特、優步和通用也都在硅谷建立了類似的訓練系統。Waymo只不過是開始得最早的一個。當然,他們取得的數據也是最多的。
虛擬世界的訓練,在24小時內可能跑出上千萬公里。每一分鐘都能模擬出10年前兩周的工作量。有專家提出模擬和真實公路測試的比例應該是100:1。同時,模擬部分應該把無聊的地方切斷,專注于有趣的部分(盡可能的復雜場景),達到加速訓練的目的。
有人認為,一旦無人系統在虛擬城市中的數量達到數百萬個,其群體行為模式,已經非常接近真實的超級城市日常。而在其背后,必須部署足夠的實際車輛和傳感器,建立公路數據庫。完全依靠虛擬場景訓練出來的無人系統,可能面對真實路況時表現“不大一樣”。
這提示了人們,虛擬城市的模型過于簡單,會不會導致無人車無法駕馭大城市的復雜局面。
不過,錢德勒市是旅游勝地,實際上人口只有幾十萬。而且通常陽光充足、對傳感器正常工作有正面作用。環境影響似乎可以排除。
讓我們回到開始。訓練雖然開始時借鑒了人類司機應對的場景,但最終人工智能可能會采取不同的策略。隨著無人系統對人類行為理解的深入,促使它形成自己的駕駛風格。令人吃驚的是,無人系統面對另一個無人系統時采取的策略,與它面對人類駕駛車輛時不一樣。而我們還沒有想過城市里完全充斥著無人駕駛車輛的情形。
這意味著,無人系統統治整個城市的時候,可能自發形成全新的交通準則。更高效、更默契。人類在汽車時代所積累并奉為圭臬的準則,很可能被替代。車禍揭示了有人和無人車輛混行可能造成的混亂,但也讓我們更期待全新的無人駕駛交通。到那時,無人系統的工作可能更簡單。
-
谷歌
+關注
關注
27文章
6142瀏覽量
105115 -
無人駕駛
+關注
關注
98文章
4038瀏覽量
120309 -
自動駕駛
+關注
關注
783文章
13694瀏覽量
166166
原文標題:如何訓練無人駕駛系統?
文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論