豐色 曹原 發自 凹非寺
用多模態大模型做自動駕駛的決策器,效果居然這麼好?
來自商湯的最新自動駕駛大模型DriveMLM,直接在閉環測試最權威榜單CARLA上取得了SOTA成績——
跑分比基線Apollo還要高4.7,令一眾傳統模組化和端到端方法全都黯然失色。
對於該模型,我們只需將圖像、鐳射雷達資訊、交通規則甚至是乘客需求「一股腦」丟給它,它就能給出駕駛方案——直接能夠控制車輛的那種,並告訴你為什麼要這麼開。
這不僅讓駕駛邏輯可控、過程具備可解釋性,且更擅長解決特殊和複雜情況。
像什麼給緊急車輛讓行?小case:
你說你著急能不能超車?它也能靈活處理(a為超車成功,b為車道不空,拒絕超車):
簡直不要太驚豔~
具體怎麼實現,我們扒開論文來看。
多模態LLM破解自動駕駛難題
目前,自動駕駛系統主要有兩種方案,模組化和端到端。
模組化方案顧名思義,把自動駕駛任務拆解為感知、定位和規控三個模組,各模組各自完成任務,最後輸出車輛控制信號。
而端到端則是一個整體的模型,包含了上述感知、定位等等所有模組的功能, 最後同樣輸出車輛控制信號。
但這兩種方案,各有各的缺點。
模組化方案的演算法依賴專家知識,所有規則都需要提前手寫、定義。如果在實際駕駛場景中碰到沒有提前寫入的情況,很可能導致系統失效。比如救護車、消防車這種不會按照交通規則行駛的車輛,讓自動駕駛系統自己去處理就很容易出錯。
端到端方案則是依賴資料驅動,雖然靠大量、真實情況下的駕駛資料,可以不斷驅動系統能力進行迭代,但這同樣對輸入的資料要求很高,需要大量的標註資料,這無異增加系統訓練和迭代的成本。
同時,至今為止,端到端方案的神經網路還是一個「黑盒」,決策規劃都在系統內部完成,缺乏可解釋性。萬一有問題,很難像模組化方案那樣發現到底是哪一部分出了問題。
而對於增強端到端方案的可解釋性,近年來也有許多研究將大語言模型(LLM)引入自動駕駛系統中,但缺點是LLM輸出主要是語言,無法進一步用於車輛控制。
對此,商湯提出了DriveMLM模型,它和現有自動駕駛系統行為規劃模組中的決策狀態對齊,可實現閉環測試中操控車輛,超過之前的端到端和基於規則的自動駕駛系統方法。
和開環測試中,通過給定圖片進行軌跡預測相比,閉環測試能模擬真實環境和場景,更接近真實駕駛效果。
具體來看,其整體框架如圖所示。
首先它將LLM的語言決策輸出,和成熟模組化方案中規控部分的決策狀態對齊,由此LLM輸出的語言信號就可轉化為車輛控制信號。
其次,DriveMLM的MLLM planner模組,包含多模態分詞器(Multi-modal tokenizer)和MLLM解碼器兩個部分。
前者負責將攝像頭、鐳射雷達、使用者語言需求、交通規則等各種輸入轉化為統一的token embedding;後者,即MLLM解碼器則基於這裡生成的token,再生成圖片描述、駕駛決策和決策解釋等內容。
訓練上,DriveMLM在280小時長的駕駛資料上進行完成(共包含50000條路線、30種不同天氣和照明條件的場景)。
所有這些資料全部收集自CARLA仿真器,也就是目前自動駕駛領域被使用最多的開源仿真工具和閉環測試基準。
格式如下:每幀都包含對應的圖片描述、駕駛決策和決策解釋三部分。
△資料案例
相比現有自動駕駛資料,DriveMLM的資料有兩個不同之處:
一是決策部分能夠與實際行為決策模組對齊,方便我們將MLLM規劃器的輸出轉換為控制信號,直接控制閉環駕駛中的車輛;
二是包含與人類的互動資料,可以提高系統理解人類指令並做出反應的能力。
那麼,基於以上一切實現,DriveMLM的具體效果如何?
能真正跑起來且具備可解釋性
首先,和業內的其他駕駛方法相比,DriveMLM實現了閉環測試的SOTA成績。
在CARLA中廣泛使用的Town05Long基準上,它的駕駛得分(Driving Score)和路線完成度(Route Completion)明顯比Apollo等非大模型方法都要高。
唯一惜敗的是違規得分(Infraction Score),但也跟Apollo相差無幾。
這表明,DriveMLM可以在遵守交規的同時做出更好的決定。
除此之外,DriveMLM (Miles Per Intervention)在MPI指標上也具備相當大的領先優勢,說明它在相同里程內更少被人為接管,更為可靠。
從下面的演示來看,DriveMLM能夠處理各種複雜情況,比如繞過未知障礙物:
比如給緊急車輛讓行:
特別值得一提的是,大模型的自然語言處理能力讓它更具人性化,通過語言指令,還能處理來自人類乘客的特殊需求,進一步更改MLLM規劃器的決策。
例如有人表示「我著急能不能開快點」,它完全能夠根據實際路況靈活處理,能超就超,不能超便拒絕,相當「貼心」。
其次,和其他多模態大模型例如GPT-4V相比,DriveMLM也表現亮眼:具備更高的決策準確率和解釋合理性。
如下圖所示,GPT-4V解釋了一大堆,卻沒有看到紅燈(a)/前方車輛(b),給出了錯誤的建議,而DriveMLM在這兩個場景中都簡單幹脆、直擊重點,給出了正確的駕駛方法。
最後,DriveMLM還在真實駕駛場景上展現出了零樣本能力(基於nuScenes驗證集)。
如下圖所示, DriveMLM能夠識別現實環境中的紅燈並停車(左)、推斷現實十字路口的位置並提前減速(右)。
總的來看,以上測試證明,藉助多模態大模型的能力,商湯提出的DriveMLM確實展現出了巨大的智駕潛力。
而相比此前的一系列傳統方法,它的最大優勢和價值主要包含三個方面:
一是一致的決策指令設置使得DriveMLM可以直接與現有的模組化AD系統(如Apollo)進行對接,無需任何重大更改就能夠實現閉環駕駛,讓車真的跑起來。
二是可以直接輸入自然語言指令傳達乘客需求或高級系統訊息,交給模型來處理。
這樣一來,自動駕駛系統便能適應越發多樣、高階的駕駛場景。
三是基於大模型不光輸出結果還能給出邏輯推理過程的特性,DriveMLM作出的每一個行為和選擇都會跟有詳細的說明來解釋它為什麼要這麼做。
可解釋性和安全之間的強關聯關係不用多說,DriveMLM的高可解釋性,將有助於我們不斷開發更為安全透明的自動駕駛系統。
自動駕駛的未來,就靠大模型了
有觀點雲:自動駕駛一定有ChatGPT時刻,且最快就在今年到來。
如何到來?
業內普遍將目光投向了大模型。
商湯聯合創始人、首席科學家王曉剛最近就發表觀點稱:
接下來的一到兩年,是智慧汽車關鍵突破的時間點。
無論是端到端資料驅動的自動駕駛、還是智慧座艙大腦等等,都將以大模型為基礎。
他指出:其中在智慧駕駛方面,大模型將包攬並連通感知、融合、定位、決策、規控等一系列模組的功能並進行連通,來真正解決各種Corner Case。
而商湯的這次成果就讓我們看到,用大模型,特別是能處理多種類型資料的多模態LLM來做決策,對自動駕駛能力確實有很大提升。
其中最關鍵的,就是自動駕駛系統能更像人類,具備一定的常識,對駕駛環境、規則有相應的理解。
所以可以擺脫對手寫規則的依賴,在遇見沒有碰到過的駕駛場景時,比如上面提到的前方道路轉彎、需要提前減速的情況,系統能夠自己處理。
並且除了以往的傳感器資料,人類的語言輸入也能夠參與車輛控制的流程中,同時系統能夠理解意圖,並根據實際情況做出駕駛決策。
其實要說將大模型應用於自動駕駛,商湯DriveMLM並非行業先例。
但它作為業內首個將大模型應用於駕駛決策的方案,實現了對車輛的實際控制,更容易在車端構建端到端的解決方案,讓我們看到了大模型這一新解法的巨大潛力,所以值得關注。
此外,說起商湯,它本身在自動駕駛方面也有積澱。
不久前,他們的感知決策一體化自動駕駛通用大模型還入選了CVPR 2023最佳論文:《Planning-oriented Autonomous Driving》,DriveMLM正是在這個成果上進行的後續研究。
最後,我們也不由地期待,DriveMLM真正落地量產車的那一天。
所以,你看好大模型這一新解法嗎?你認為還有哪些挑戰需要解決?