自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

用多模態(tài)LLM做自動(dòng)駕駛決策器,可解釋性有了!比純端到端更擅長處理特殊場(chǎng)景,來自商湯

人工智能
來自商湯的最新自動(dòng)駕駛大模型DriveMLM,直接在閉環(huán)測(cè)試最權(quán)威榜單CARLA上取得了SOTA成績(jī)——跑分比基線Apollo還要高4.7,令一眾傳統(tǒng)模塊化和端到端方法全都黯然失色。

用多模態(tài)大模型做自動(dòng)駕駛的決策器,效果居然這么好?

來自商湯的最新自動(dòng)駕駛大模型DriveMLM,直接在閉環(huán)測(cè)試最權(quán)威榜單CARLA上取得了SOTA成績(jī)——

跑分比基線Apollo還要高4.7,令一眾傳統(tǒng)模塊化和端到端方法全都黯然失色。

圖片

對(duì)于該模型,我們只需將圖像、激光雷達(dá)信息、交通規(guī)則甚至是乘客需求“一股腦”丟給它,它就能給出駕駛方案——直接能夠控制車輛的那種,并告訴你為什么要這么開。

這不僅讓駕駛邏輯可控、過程具備可解釋性,且更擅長解決特殊和復(fù)雜情況。

像什么給緊急車輛讓行?小case:

圖片

你說你著急能不能超車?它也能靈活處理(a為超車成功,b為車道不空,拒絕超車):

圖片

簡(jiǎn)直不要太驚艷~

具體怎么實(shí)現(xiàn),我們扒開論文來看。

多模態(tài)LLM破解自動(dòng)駕駛難題

目前,自動(dòng)駕駛系統(tǒng)主要有兩種方案,模塊化和端到端。

模塊化方案顧名思義,把自動(dòng)駕駛?cè)蝿?wù)拆解為感知、定位和規(guī)控三個(gè)模塊,各模塊各自完成任務(wù),最后輸出車輛控制信號(hào)。

圖片

而端到端則是一個(gè)整體的模型,包含了上述感知、定位等等所有模塊的功能, 最后同樣輸出車輛控制信號(hào)。

但這兩種方案,各有各的缺點(diǎn)。

模塊化方案的算法依賴專家知識(shí),所有規(guī)則都需要提前手寫、定義。如果在實(shí)際駕駛場(chǎng)景中碰到?jīng)]有提前寫入的情況,很可能導(dǎo)致系統(tǒng)失效。比如救護(hù)車、消防車這種不會(huì)按照交通規(guī)則行駛的車輛,讓自動(dòng)駕駛系統(tǒng)自己去處理就很容易出錯(cuò)。

端到端方案則是依賴數(shù)據(jù)驅(qū)動(dòng),雖然靠大量、真實(shí)情況下的駕駛數(shù)據(jù),可以不斷驅(qū)動(dòng)系統(tǒng)能力進(jìn)行迭代,但這同樣對(duì)輸入的數(shù)據(jù)要求很高,需要大量的標(biāo)注數(shù)據(jù),這無異增加系統(tǒng)訓(xùn)練和迭代的成本。

同時(shí),至今為止,端到端方案的神經(jīng)網(wǎng)絡(luò)還是一個(gè)“黑盒”,決策規(guī)劃都在系統(tǒng)內(nèi)部完成,缺乏可解釋性。萬一有問題,很難像模塊化方案那樣發(fā)現(xiàn)到底是哪一部分出了問題。

圖片

而對(duì)于增強(qiáng)端到端方案的可解釋性,近年來也有許多研究將大語言模型(LLM)引入自動(dòng)駕駛系統(tǒng)中,但缺點(diǎn)是LLM輸出主要是語言,無法進(jìn)一步用于車輛控制。

對(duì)此,商湯提出了DriveMLM模型,它和現(xiàn)有自動(dòng)駕駛系統(tǒng)行為規(guī)劃模塊中的決策狀態(tài)對(duì)齊,可實(shí)現(xiàn)閉環(huán)測(cè)試中操控車輛,超過之前的端到端和基于規(guī)則的自動(dòng)駕駛系統(tǒng)方法。

和開環(huán)測(cè)試中,通過給定圖片進(jìn)行軌跡預(yù)測(cè)相比,閉環(huán)測(cè)試能模擬真實(shí)環(huán)境和場(chǎng)景,更接近真實(shí)駕駛效果。

具體來看,其整體框架如圖所示。

圖片

首先它將LLM的語言決策輸出,和成熟模塊化方案中規(guī)控部分的決策狀態(tài)對(duì)齊,由此LLM輸出的語言信號(hào)就可轉(zhuǎn)化為車輛控制信號(hào)。

其次,DriveMLM的MLLM planner模塊,包含多模態(tài)分詞器(Multi-modal tokenizer)和MLLM解碼器兩個(gè)部分。

前者負(fù)責(zé)將攝像頭、激光雷達(dá)、用戶語言需求、交通規(guī)則等各種輸入轉(zhuǎn)化為統(tǒng)一的token embedding;后者,即MLLM解碼器則基于這里生成的token,再生成圖片描述、駕駛決策和決策解釋等內(nèi)容。

訓(xùn)練上,DriveMLM在280小時(shí)長的駕駛數(shù)據(jù)上進(jìn)行完成(共包含50000條路線、30種不同天氣和照明條件的場(chǎng)景)。

所有這些數(shù)據(jù)全部收集自CARLA仿真器,也就是目前自動(dòng)駕駛領(lǐng)域被使用最多的開源仿真工具和閉環(huán)測(cè)試基準(zhǔn)。

格式如下:每幀都包含對(duì)應(yīng)的圖片描述、駕駛決策和決策解釋三部分。

圖片
△數(shù)據(jù)案例

相比現(xiàn)有自動(dòng)駕駛數(shù)據(jù),DriveMLM的數(shù)據(jù)有兩個(gè)不同之處:

一是決策部分能夠與實(shí)際行為決策模塊對(duì)齊,方便我們將MLLM規(guī)劃器的輸出轉(zhuǎn)換為控制信號(hào),直接控制閉環(huán)駕駛中的車輛;

二是包含與人類的交互數(shù)據(jù),可以提高系統(tǒng)理解人類指令并做出反應(yīng)的能力。

圖片

那么,基于以上一切實(shí)現(xiàn),DriveMLM的具體效果如何?

能真正跑起來且具備可解釋性

首先,和業(yè)內(nèi)的其他駕駛方法相比,DriveMLM實(shí)現(xiàn)了閉環(huán)測(cè)試的SOTA成績(jī)。

圖片

在CARLA中廣泛使用的Town05Long基準(zhǔn)上,它的駕駛得分(Driving Score)和路線完成度(Route Completion)明顯比Apollo等非大模型方法都要高。

唯一惜敗的是違規(guī)得分(Infraction Score),但也跟Apollo相差無幾。

這表明,DriveMLM可以在遵守交規(guī)的同時(shí)做出更好的決定。

除此之外,DriveMLM (Miles Per Intervention)在MPI指標(biāo)上也具備相當(dāng)大的領(lǐng)先優(yōu)勢(shì),說明它在相同里程內(nèi)更少被人為接管,更為可靠。

從下面的演示來看,DriveMLM能夠處理各種復(fù)雜情況,比如繞過未知障礙物:

圖片

比如給緊急車輛讓行:

圖片

特別值得一提的是,大模型的自然語言處理能力讓它更具人性化,通過語言指令,還能處理來自人類乘客的特殊需求,進(jìn)一步更改MLLM規(guī)劃器的決策。

例如有人表示“我著急能不能開快點(diǎn)”,它完全能夠根據(jù)實(shí)際路況靈活處理,能超就超,不能超便拒絕,相當(dāng)“貼心”。

其次,和其他多模態(tài)大模型例如GPT-4V相比,DriveMLM也表現(xiàn)亮眼:具備更高的決策準(zhǔn)確率和解釋合理性。

如下圖所示,GPT-4V解釋了一大堆,卻沒有看到紅燈(a)/前方車輛(b),給出了錯(cuò)誤的建議,而DriveMLM在這兩個(gè)場(chǎng)景中都簡(jiǎn)單干脆、直擊重點(diǎn),給出了正確的駕駛方法。

圖片

最后,DriveMLM還在真實(shí)駕駛場(chǎng)景上展現(xiàn)出了零樣本能力(基于nuScenes驗(yàn)證集)。

如下圖所示, DriveMLM能夠識(shí)別現(xiàn)實(shí)環(huán)境中的紅燈并停車(左)、推斷現(xiàn)實(shí)十字路口的位置并提前減速(右)。

圖片

總的來看,以上測(cè)試證明,借助多模態(tài)大模型的能力,商湯提出的DriveMLM確實(shí)展現(xiàn)出了巨大的智駕潛力。

而相比此前的一系列傳統(tǒng)方法,它的最大優(yōu)勢(shì)和價(jià)值主要包含三個(gè)方面:

一是一致的決策指令設(shè)置使得DriveMLM可以直接與現(xiàn)有的模塊化AD系統(tǒng)(如Apollo)進(jìn)行對(duì)接,無需任何重大更改就能夠?qū)崿F(xiàn)閉環(huán)駕駛,讓車真的跑起來。

二是可以直接輸入自然語言指令傳達(dá)乘客需求或高級(jí)系統(tǒng)消息,交給模型來處理。

這樣一來,自動(dòng)駕駛系統(tǒng)便能適應(yīng)越發(fā)多樣、高階的駕駛場(chǎng)景。

三是基于大模型不光輸出結(jié)果還能給出邏輯推理過程的特性,DriveMLM作出的每一個(gè)行為和選擇都會(huì)跟有詳細(xì)的說明來解釋它為什么要這么做。

可解釋性和安全之間的強(qiáng)關(guān)聯(lián)關(guān)系不用多說,DriveMLM的高可解釋性,將有助于我們不斷開發(fā)更為安全透明的自動(dòng)駕駛系統(tǒng)。

自動(dòng)駕駛的未來,就靠大模型了

有觀點(diǎn)云:自動(dòng)駕駛一定有ChatGPT時(shí)刻,且最快就在今年到來。

如何到來?

業(yè)內(nèi)普遍將目光投向了大模型。

商湯聯(lián)合創(chuàng)始人、首席科學(xué)家王曉剛最近就發(fā)表觀點(diǎn)稱:

接下來的一到兩年,是智能汽車關(guān)鍵突破的時(shí)間點(diǎn)。

無論是端到端數(shù)據(jù)驅(qū)動(dòng)的自動(dòng)駕駛、還是智能座艙大腦等等,都將以大模型為基礎(chǔ)。

他指出:其中在智能駕駛方面,大模型將包攬并連通感知、融合、定位、決策、規(guī)控等一系列模塊的功能并進(jìn)行連通,來真正解決各種Corner Case。

而商湯的這次成果就讓我們看到,用大模型,特別是能處理多種類型數(shù)據(jù)的多模態(tài)LLM來做決策,對(duì)自動(dòng)駕駛能力確實(shí)有很大提升。

其中最關(guān)鍵的,就是自動(dòng)駕駛系統(tǒng)能更像人類,具備一定的常識(shí),對(duì)駕駛環(huán)境、規(guī)則有相應(yīng)的理解。

所以可以擺脫對(duì)手寫規(guī)則的依賴,在遇見沒有碰到過的駕駛場(chǎng)景時(shí),比如上面提到的前方道路轉(zhuǎn)彎、需要提前減速的情況,系統(tǒng)能夠自己處理。

并且除了以往的傳感器數(shù)據(jù),人類的語言輸入也能夠參與車輛控制的流程中,同時(shí)系統(tǒng)能夠理解意圖,并根據(jù)實(shí)際情況做出駕駛決策。

其實(shí)要說將大模型應(yīng)用于自動(dòng)駕駛,商湯DriveMLM并非行業(yè)先例。

但它作為業(yè)內(nèi)首個(gè)將大模型應(yīng)用于駕駛決策的方案,實(shí)現(xiàn)了對(duì)車輛的實(shí)際控制,更容易在車端構(gòu)建端到端的解決方案,讓我們看到了大模型這一新解法的巨大潛力,所以值得關(guān)注。

此外,說起商湯,它本身在自動(dòng)駕駛方面也有積淀。

不久前,他們的感知決策一體化自動(dòng)駕駛通用大模型還入選了CVPR 2023最佳論文:《Planning-oriented Autonomous Driving》,DriveMLM正是在這個(gè)成果上進(jìn)行的后續(xù)研究。

圖片

最后,我們也不由地期待,DriveMLM真正落地量產(chǎn)車的那一天。

所以,你看好大模型這一新解法嗎?你認(rèn)為還有哪些挑戰(zhàn)需要解決?

責(zé)任編輯:姜華 來源: 量子位
相關(guān)推薦

2023-10-10 09:31:35

自動(dòng)駕駛技術(shù)

2023-10-30 09:47:00

自動(dòng)駕駛技術(shù)

2023-12-18 10:15:30

自動(dòng)駕駛自然語言

2024-04-15 11:40:37

自動(dòng)駕駛端到端

2025-02-10 10:35:00

自動(dòng)駕駛端到端模型

2023-08-24 09:52:44

自動(dòng)駕駛設(shè)計(jì)

2024-12-16 07:30:00

2024-02-21 09:14:32

端到端自動(dòng)駕駛

2022-04-25 15:13:03

自動(dòng)駕駛傳感器

2023-10-13 09:43:36

自動(dòng)駕駛數(shù)據(jù)

2022-02-25 10:56:08

自動(dòng)駕駛傳感器技術(shù)

2023-03-07 16:48:54

算法可解釋性

2024-04-17 09:50:28

自動(dòng)駕駛端到端

2024-01-04 09:35:41

自動(dòng)駕駛端到端

2022-04-06 11:05:25

自動(dòng)駕駛商業(yè)化馬斯克

2024-03-13 09:39:45

端到端自動(dòng)駕駛

2024-10-11 09:32:48

2024-07-12 08:38:57

2024-08-13 12:39:23

2024-05-08 11:32:24

端到端自動(dòng)駕駛
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)