用多模態(tài)LLM做自動(dòng)駕駛決策器,可解釋性有了!比純端到端更擅長處理特殊場(chǎng)景,來自商湯
用多模態(tài)大模型做自動(dòng)駕駛的決策器,效果居然這么好?
來自商湯的最新自動(dòng)駕駛大模型DriveMLM,直接在閉環(huán)測(cè)試最權(quán)威榜單CARLA上取得了SOTA成績(jī)——
跑分比基線Apollo還要高4.7,令一眾傳統(tǒng)模塊化和端到端方法全都黯然失色。
對(duì)于該模型,我們只需將圖像、激光雷達(dá)信息、交通規(guī)則甚至是乘客需求“一股腦”丟給它,它就能給出駕駛方案——直接能夠控制車輛的那種,并告訴你為什么要這么開。
這不僅讓駕駛邏輯可控、過程具備可解釋性,且更擅長解決特殊和復(fù)雜情況。
像什么給緊急車輛讓行?小case:
你說你著急能不能超車?它也能靈活處理(a為超車成功,b為車道不空,拒絕超車):
簡(jiǎn)直不要太驚艷~
具體怎么實(shí)現(xiàn),我們扒開論文來看。
多模態(tài)LLM破解自動(dòng)駕駛難題
目前,自動(dòng)駕駛系統(tǒng)主要有兩種方案,模塊化和端到端。
模塊化方案顧名思義,把自動(dòng)駕駛?cè)蝿?wù)拆解為感知、定位和規(guī)控三個(gè)模塊,各模塊各自完成任務(wù),最后輸出車輛控制信號(hào)。
而端到端則是一個(gè)整體的模型,包含了上述感知、定位等等所有模塊的功能, 最后同樣輸出車輛控制信號(hào)。
但這兩種方案,各有各的缺點(diǎn)。
模塊化方案的算法依賴專家知識(shí),所有規(guī)則都需要提前手寫、定義。如果在實(shí)際駕駛場(chǎng)景中碰到?jīng)]有提前寫入的情況,很可能導(dǎo)致系統(tǒng)失效。比如救護(hù)車、消防車這種不會(huì)按照交通規(guī)則行駛的車輛,讓自動(dòng)駕駛系統(tǒng)自己去處理就很容易出錯(cuò)。
端到端方案則是依賴數(shù)據(jù)驅(qū)動(dòng),雖然靠大量、真實(shí)情況下的駕駛數(shù)據(jù),可以不斷驅(qū)動(dòng)系統(tǒng)能力進(jìn)行迭代,但這同樣對(duì)輸入的數(shù)據(jù)要求很高,需要大量的標(biāo)注數(shù)據(jù),這無異增加系統(tǒng)訓(xùn)練和迭代的成本。
同時(shí),至今為止,端到端方案的神經(jīng)網(wǎng)絡(luò)還是一個(gè)“黑盒”,決策規(guī)劃都在系統(tǒng)內(nèi)部完成,缺乏可解釋性。萬一有問題,很難像模塊化方案那樣發(fā)現(xiàn)到底是哪一部分出了問題。
而對(duì)于增強(qiáng)端到端方案的可解釋性,近年來也有許多研究將大語言模型(LLM)引入自動(dòng)駕駛系統(tǒng)中,但缺點(diǎn)是LLM輸出主要是語言,無法進(jìn)一步用于車輛控制。
對(duì)此,商湯提出了DriveMLM模型,它和現(xiàn)有自動(dòng)駕駛系統(tǒng)行為規(guī)劃模塊中的決策狀態(tài)對(duì)齊,可實(shí)現(xiàn)閉環(huán)測(cè)試中操控車輛,超過之前的端到端和基于規(guī)則的自動(dòng)駕駛系統(tǒng)方法。
和開環(huán)測(cè)試中,通過給定圖片進(jìn)行軌跡預(yù)測(cè)相比,閉環(huán)測(cè)試能模擬真實(shí)環(huán)境和場(chǎng)景,更接近真實(shí)駕駛效果。
具體來看,其整體框架如圖所示。
首先它將LLM的語言決策輸出,和成熟模塊化方案中規(guī)控部分的決策狀態(tài)對(duì)齊,由此LLM輸出的語言信號(hào)就可轉(zhuǎn)化為車輛控制信號(hào)。
其次,DriveMLM的MLLM planner模塊,包含多模態(tài)分詞器(Multi-modal tokenizer)和MLLM解碼器兩個(gè)部分。
前者負(fù)責(zé)將攝像頭、激光雷達(dá)、用戶語言需求、交通規(guī)則等各種輸入轉(zhuǎn)化為統(tǒng)一的token embedding;后者,即MLLM解碼器則基于這里生成的token,再生成圖片描述、駕駛決策和決策解釋等內(nèi)容。
訓(xùn)練上,DriveMLM在280小時(shí)長的駕駛數(shù)據(jù)上進(jìn)行完成(共包含50000條路線、30種不同天氣和照明條件的場(chǎng)景)。
所有這些數(shù)據(jù)全部收集自CARLA仿真器,也就是目前自動(dòng)駕駛領(lǐng)域被使用最多的開源仿真工具和閉環(huán)測(cè)試基準(zhǔn)。
格式如下:每幀都包含對(duì)應(yīng)的圖片描述、駕駛決策和決策解釋三部分。
△數(shù)據(jù)案例
相比現(xiàn)有自動(dòng)駕駛數(shù)據(jù),DriveMLM的數(shù)據(jù)有兩個(gè)不同之處:
一是決策部分能夠與實(shí)際行為決策模塊對(duì)齊,方便我們將MLLM規(guī)劃器的輸出轉(zhuǎn)換為控制信號(hào),直接控制閉環(huán)駕駛中的車輛;
二是包含與人類的交互數(shù)據(jù),可以提高系統(tǒng)理解人類指令并做出反應(yīng)的能力。
那么,基于以上一切實(shí)現(xiàn),DriveMLM的具體效果如何?
能真正跑起來且具備可解釋性
首先,和業(yè)內(nèi)的其他駕駛方法相比,DriveMLM實(shí)現(xiàn)了閉環(huán)測(cè)試的SOTA成績(jī)。
在CARLA中廣泛使用的Town05Long基準(zhǔn)上,它的駕駛得分(Driving Score)和路線完成度(Route Completion)明顯比Apollo等非大模型方法都要高。
唯一惜敗的是違規(guī)得分(Infraction Score),但也跟Apollo相差無幾。
這表明,DriveMLM可以在遵守交規(guī)的同時(shí)做出更好的決定。
除此之外,DriveMLM (Miles Per Intervention)在MPI指標(biāo)上也具備相當(dāng)大的領(lǐng)先優(yōu)勢(shì),說明它在相同里程內(nèi)更少被人為接管,更為可靠。
從下面的演示來看,DriveMLM能夠處理各種復(fù)雜情況,比如繞過未知障礙物:
比如給緊急車輛讓行:
特別值得一提的是,大模型的自然語言處理能力讓它更具人性化,通過語言指令,還能處理來自人類乘客的特殊需求,進(jìn)一步更改MLLM規(guī)劃器的決策。
例如有人表示“我著急能不能開快點(diǎn)”,它完全能夠根據(jù)實(shí)際路況靈活處理,能超就超,不能超便拒絕,相當(dāng)“貼心”。
其次,和其他多模態(tài)大模型例如GPT-4V相比,DriveMLM也表現(xiàn)亮眼:具備更高的決策準(zhǔn)確率和解釋合理性。
如下圖所示,GPT-4V解釋了一大堆,卻沒有看到紅燈(a)/前方車輛(b),給出了錯(cuò)誤的建議,而DriveMLM在這兩個(gè)場(chǎng)景中都簡(jiǎn)單干脆、直擊重點(diǎn),給出了正確的駕駛方法。
最后,DriveMLM還在真實(shí)駕駛場(chǎng)景上展現(xiàn)出了零樣本能力(基于nuScenes驗(yàn)證集)。
如下圖所示, DriveMLM能夠識(shí)別現(xiàn)實(shí)環(huán)境中的紅燈并停車(左)、推斷現(xiàn)實(shí)十字路口的位置并提前減速(右)。
總的來看,以上測(cè)試證明,借助多模態(tài)大模型的能力,商湯提出的DriveMLM確實(shí)展現(xiàn)出了巨大的智駕潛力。
而相比此前的一系列傳統(tǒng)方法,它的最大優(yōu)勢(shì)和價(jià)值主要包含三個(gè)方面:
一是一致的決策指令設(shè)置使得DriveMLM可以直接與現(xiàn)有的模塊化AD系統(tǒng)(如Apollo)進(jìn)行對(duì)接,無需任何重大更改就能夠?qū)崿F(xiàn)閉環(huán)駕駛,讓車真的跑起來。
二是可以直接輸入自然語言指令傳達(dá)乘客需求或高級(jí)系統(tǒng)消息,交給模型來處理。
這樣一來,自動(dòng)駕駛系統(tǒng)便能適應(yīng)越發(fā)多樣、高階的駕駛場(chǎng)景。
三是基于大模型不光輸出結(jié)果還能給出邏輯推理過程的特性,DriveMLM作出的每一個(gè)行為和選擇都會(huì)跟有詳細(xì)的說明來解釋它為什么要這么做。
可解釋性和安全之間的強(qiáng)關(guān)聯(lián)關(guān)系不用多說,DriveMLM的高可解釋性,將有助于我們不斷開發(fā)更為安全透明的自動(dòng)駕駛系統(tǒng)。
自動(dòng)駕駛的未來,就靠大模型了
有觀點(diǎn)云:自動(dòng)駕駛一定有ChatGPT時(shí)刻,且最快就在今年到來。
如何到來?
業(yè)內(nèi)普遍將目光投向了大模型。
商湯聯(lián)合創(chuàng)始人、首席科學(xué)家王曉剛最近就發(fā)表觀點(diǎn)稱:
接下來的一到兩年,是智能汽車關(guān)鍵突破的時(shí)間點(diǎn)。
無論是端到端數(shù)據(jù)驅(qū)動(dòng)的自動(dòng)駕駛、還是智能座艙大腦等等,都將以大模型為基礎(chǔ)。
他指出:其中在智能駕駛方面,大模型將包攬并連通感知、融合、定位、決策、規(guī)控等一系列模塊的功能并進(jìn)行連通,來真正解決各種Corner Case。
而商湯的這次成果就讓我們看到,用大模型,特別是能處理多種類型數(shù)據(jù)的多模態(tài)LLM來做決策,對(duì)自動(dòng)駕駛能力確實(shí)有很大提升。
其中最關(guān)鍵的,就是自動(dòng)駕駛系統(tǒng)能更像人類,具備一定的常識(shí),對(duì)駕駛環(huán)境、規(guī)則有相應(yīng)的理解。
所以可以擺脫對(duì)手寫規(guī)則的依賴,在遇見沒有碰到過的駕駛場(chǎng)景時(shí),比如上面提到的前方道路轉(zhuǎn)彎、需要提前減速的情況,系統(tǒng)能夠自己處理。
并且除了以往的傳感器數(shù)據(jù),人類的語言輸入也能夠參與車輛控制的流程中,同時(shí)系統(tǒng)能夠理解意圖,并根據(jù)實(shí)際情況做出駕駛決策。
其實(shí)要說將大模型應(yīng)用于自動(dòng)駕駛,商湯DriveMLM并非行業(yè)先例。
但它作為業(yè)內(nèi)首個(gè)將大模型應(yīng)用于駕駛決策的方案,實(shí)現(xiàn)了對(duì)車輛的實(shí)際控制,更容易在車端構(gòu)建端到端的解決方案,讓我們看到了大模型這一新解法的巨大潛力,所以值得關(guān)注。
此外,說起商湯,它本身在自動(dòng)駕駛方面也有積淀。
不久前,他們的感知決策一體化自動(dòng)駕駛通用大模型還入選了CVPR 2023最佳論文:《Planning-oriented Autonomous Driving》,DriveMLM正是在這個(gè)成果上進(jìn)行的后續(xù)研究。
最后,我們也不由地期待,DriveMLM真正落地量產(chǎn)車的那一天。
所以,你看好大模型這一新解法嗎?你認(rèn)為還有哪些挑戰(zhàn)需要解決?