自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="v6i9f"></blockquote>}^{<blockquote id="v6i9f"></blockquote>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

用多模態(tài)LLM做自動(dòng)駕駛決策器，可解釋性有了！比純端到端更擅長處理特殊場(chǎng)景，來自商湯

2024-01-10 17:34:42

來自商湯的最新自動(dòng)駕駛大模型DriveMLM，直接在閉環(huán)測(cè)試最權(quán)威榜單CARLA上取得了SOTA成績(jī)——跑分比基線Apollo還要高4.7，令一眾傳統(tǒng)模塊化和端到端方法全都黯然失色。

用多模態(tài)大模型做自動(dòng)駕駛的決策器，效果居然這么好？

來自商湯的最新自動(dòng)駕駛大模型DriveMLM，直接在閉環(huán)測(cè)試最權(quán)威榜單CARLA上取得了SOTA成績(jī)——

跑分比基線Apollo還要高4.7，令一眾傳統(tǒng)模塊化和端到端方法全都黯然失色。

對(duì)于該模型，我們只需將圖像、激光雷達(dá)信息、交通規(guī)則甚至是乘客需求“一股腦”丟給它，它就能給出駕駛方案——直接能夠控制車輛的那種，并告訴你為什么要這么開。

這不僅讓駕駛邏輯可控、過程具備可解釋性，且更擅長解決特殊和復(fù)雜情況。

像什么給緊急車輛讓行？小case：

你說你著急能不能超車？它也能靈活處理（a為超車成功，b為車道不空，拒絕超車）：

簡(jiǎn)直不要太驚艷～

具體怎么實(shí)現(xiàn)，我們扒開論文來看。

多模態(tài)LLM破解自動(dòng)駕駛難題

目前，自動(dòng)駕駛系統(tǒng)主要有兩種方案，模塊化和端到端。

模塊化方案顧名思義，把自動(dòng)駕駛?cè)蝿?wù)拆解為感知、定位和規(guī)控三個(gè)模塊，各模塊各自完成任務(wù)，最后輸出車輛控制信號(hào)。

而端到端則是一個(gè)整體的模型，包含了上述感知、定位等等所有模塊的功能，最后同樣輸出車輛控制信號(hào)。

但這兩種方案，各有各的缺點(diǎn)。

模塊化方案的算法依賴專家知識(shí)，所有規(guī)則都需要提前手寫、定義。如果在實(shí)際駕駛場(chǎng)景中碰到?jīng)]有提前寫入的情況，很可能導(dǎo)致系統(tǒng)失效。比如救護(hù)車、消防車這種不會(huì)按照交通規(guī)則行駛的車輛，讓自動(dòng)駕駛系統(tǒng)自己去處理就很容易出錯(cuò)。

端到端方案則是依賴數(shù)據(jù)驅(qū)動(dòng)，雖然靠大量、真實(shí)情況下的駕駛數(shù)據(jù)，可以不斷驅(qū)動(dòng)系統(tǒng)能力進(jìn)行迭代，但這同樣對(duì)輸入的數(shù)據(jù)要求很高，需要大量的標(biāo)注數(shù)據(jù)，這無異增加系統(tǒng)訓(xùn)練和迭代的成本。

同時(shí)，至今為止，端到端方案的神經(jīng)網(wǎng)絡(luò)還是一個(gè)“黑盒”，決策規(guī)劃都在系統(tǒng)內(nèi)部完成，缺乏可解釋性。萬一有問題，很難像模塊化方案那樣發(fā)現(xiàn)到底是哪一部分出了問題。

而對(duì)于增強(qiáng)端到端方案的可解釋性，近年來也有許多研究將大語言模型（LLM）引入自動(dòng)駕駛系統(tǒng)中，但缺點(diǎn)是LLM輸出主要是語言，無法進(jìn)一步用于車輛控制。

對(duì)此，商湯提出了DriveMLM模型，它和現(xiàn)有自動(dòng)駕駛系統(tǒng)行為規(guī)劃模塊中的決策狀態(tài)對(duì)齊，可實(shí)現(xiàn)閉環(huán)測(cè)試中操控車輛，超過之前的端到端和基于規(guī)則的自動(dòng)駕駛系統(tǒng)方法。

和開環(huán)測(cè)試中，通過給定圖片進(jìn)行軌跡預(yù)測(cè)相比，閉環(huán)測(cè)試能模擬真實(shí)環(huán)境和場(chǎng)景，更接近真實(shí)駕駛效果。

具體來看，其整體框架如圖所示。

首先它將LLM的語言決策輸出，和成熟模塊化方案中規(guī)控部分的決策狀態(tài)對(duì)齊，由此LLM輸出的語言信號(hào)就可轉(zhuǎn)化為車輛控制信號(hào)。

其次，DriveMLM的MLLM planner模塊，包含多模態(tài)分詞器（Multi-modal tokenizer）和MLLM解碼器兩個(gè)部分。

前者負(fù)責(zé)將攝像頭、激光雷達(dá)、用戶語言需求、交通規(guī)則等各種輸入轉(zhuǎn)化為統(tǒng)一的token embedding；后者，即MLLM解碼器則基于這里生成的token，再生成圖片描述、駕駛決策和決策解釋等內(nèi)容。

訓(xùn)練上，DriveMLM在280小時(shí)長的駕駛數(shù)據(jù)上進(jìn)行完成（共包含50000條路線、30種不同天氣和照明條件的場(chǎng)景）。

所有這些數(shù)據(jù)全部收集自CARLA仿真器，也就是目前自動(dòng)駕駛領(lǐng)域被使用最多的開源仿真工具和閉環(huán)測(cè)試基準(zhǔn)。

格式如下：每幀都包含對(duì)應(yīng)的圖片描述、駕駛決策和決策解釋三部分。

△數(shù)據(jù)案例

相比現(xiàn)有自動(dòng)駕駛數(shù)據(jù)，DriveMLM的數(shù)據(jù)有兩個(gè)不同之處：

一是決策部分能夠與實(shí)際行為決策模塊對(duì)齊，方便我們將MLLM規(guī)劃器的輸出轉(zhuǎn)換為控制信號(hào)，直接控制閉環(huán)駕駛中的車輛；

二是包含與人類的交互數(shù)據(jù)，可以提高系統(tǒng)理解人類指令并做出反應(yīng)的能力。

那么，基于以上一切實(shí)現(xiàn)，DriveMLM的具體效果如何？

能真正跑起來且具備可解釋性

首先，和業(yè)內(nèi)的其他駕駛方法相比，DriveMLM實(shí)現(xiàn)了閉環(huán)測(cè)試的SOTA成績(jī)。

在CARLA中廣泛使用的Town05Long基準(zhǔn)上，它的駕駛得分（Driving Score）和路線完成度（Route Completion）明顯比Apollo等非大模型方法都要高。

唯一惜敗的是違規(guī)得分（Infraction Score），但也跟Apollo相差無幾。

這表明，DriveMLM可以在遵守交規(guī)的同時(shí)做出更好的決定。

除此之外，DriveMLM (Miles Per Intervention)在MPI指標(biāo)上也具備相當(dāng)大的領(lǐng)先優(yōu)勢(shì)，說明它在相同里程內(nèi)更少被人為接管，更為可靠。

從下面的演示來看，DriveMLM能夠處理各種復(fù)雜情況，比如繞過未知障礙物：

比如給緊急車輛讓行：

特別值得一提的是，大模型的自然語言處理能力讓它更具人性化，通過語言指令，還能處理來自人類乘客的特殊需求，進(jìn)一步更改MLLM規(guī)劃器的決策。

例如有人表示“我著急能不能開快點(diǎn)”，它完全能夠根據(jù)實(shí)際路況靈活處理，能超就超，不能超便拒絕，相當(dāng)“貼心”。

其次，和其他多模態(tài)大模型例如GPT-4V相比，DriveMLM也表現(xiàn)亮眼：具備更高的決策準(zhǔn)確率和解釋合理性。

如下圖所示，GPT-4V解釋了一大堆，卻沒有看到紅燈（a）/前方車輛（b），給出了錯(cuò)誤的建議，而DriveMLM在這兩個(gè)場(chǎng)景中都簡(jiǎn)單干脆、直擊重點(diǎn)，給出了正確的駕駛方法。

最后，DriveMLM還在真實(shí)駕駛場(chǎng)景上展現(xiàn)出了零樣本能力（基于nuScenes驗(yàn)證集）。

如下圖所示， DriveMLM能夠識(shí)別現(xiàn)實(shí)環(huán)境中的紅燈并停車（左）、推斷現(xiàn)實(shí)十字路口的位置并提前減速（右）。

總的來看，以上測(cè)試證明，借助多模態(tài)大模型的能力，商湯提出的DriveMLM確實(shí)展現(xiàn)出了巨大的智駕潛力。

而相比此前的一系列傳統(tǒng)方法，它的最大優(yōu)勢(shì)和價(jià)值主要包含三個(gè)方面：

一是一致的決策指令設(shè)置使得DriveMLM可以直接與現(xiàn)有的模塊化AD系統(tǒng)（如Apollo）進(jìn)行對(duì)接，無需任何重大更改就能夠?qū)崿F(xiàn)閉環(huán)駕駛，讓車真的跑起來。

二是可以直接輸入自然語言指令傳達(dá)乘客需求或高級(jí)系統(tǒng)消息，交給模型來處理。

這樣一來，自動(dòng)駕駛系統(tǒng)便能適應(yīng)越發(fā)多樣、高階的駕駛場(chǎng)景。

三是基于大模型不光輸出結(jié)果還能給出邏輯推理過程的特性，DriveMLM作出的每一個(gè)行為和選擇都會(huì)跟有詳細(xì)的說明來解釋它為什么要這么做。

可解釋性和安全之間的強(qiáng)關(guān)聯(lián)關(guān)系不用多說，DriveMLM的高可解釋性，將有助于我們不斷開發(fā)更為安全透明的自動(dòng)駕駛系統(tǒng)。

自動(dòng)駕駛的未來，就靠大模型了

有觀點(diǎn)云：自動(dòng)駕駛一定有ChatGPT時(shí)刻，且最快就在今年到來。

如何到來？

業(yè)內(nèi)普遍將目光投向了大模型。

商湯聯(lián)合創(chuàng)始人、首席科學(xué)家王曉剛最近就發(fā)表觀點(diǎn)稱：

接下來的一到兩年，是智能汽車關(guān)鍵突破的時(shí)間點(diǎn)。
無論是端到端數(shù)據(jù)驅(qū)動(dòng)的自動(dòng)駕駛、還是智能座艙大腦等等，都將以大模型為基礎(chǔ)。

他指出：其中在智能駕駛方面，大模型將包攬并連通感知、融合、定位、決策、規(guī)控等一系列模塊的功能并進(jìn)行連通，來真正解決各種Corner Case。

而商湯的這次成果就讓我們看到，用大模型，特別是能處理多種類型數(shù)據(jù)的多模態(tài)LLM來做決策，對(duì)自動(dòng)駕駛能力確實(shí)有很大提升。

其中最關(guān)鍵的，就是自動(dòng)駕駛系統(tǒng)能更像人類，具備一定的常識(shí)，對(duì)駕駛環(huán)境、規(guī)則有相應(yīng)的理解。

所以可以擺脫對(duì)手寫規(guī)則的依賴，在遇見沒有碰到過的駕駛場(chǎng)景時(shí)，比如上面提到的前方道路轉(zhuǎn)彎、需要提前減速的情況，系統(tǒng)能夠自己處理。

并且除了以往的傳感器數(shù)據(jù)，人類的語言輸入也能夠參與車輛控制的流程中，同時(shí)系統(tǒng)能夠理解意圖，并根據(jù)實(shí)際情況做出駕駛決策。

其實(shí)要說將大模型應(yīng)用于自動(dòng)駕駛，商湯DriveMLM并非行業(yè)先例。

但它作為業(yè)內(nèi)首個(gè)將大模型應(yīng)用于駕駛決策的方案，實(shí)現(xiàn)了對(duì)車輛的實(shí)際控制，更容易在車端構(gòu)建端到端的解決方案，讓我們看到了大模型這一新解法的巨大潛力，所以值得關(guān)注。

此外，說起商湯，它本身在自動(dòng)駕駛方面也有積淀。

不久前，他們的感知決策一體化自動(dòng)駕駛通用大模型還入選了CVPR 2023最佳論文：《Planning-oriented Autonomous Driving》，DriveMLM正是在這個(gè)成果上進(jìn)行的后續(xù)研究。

最后，我們也不由地期待，DriveMLM真正落地量產(chǎn)車的那一天。

所以，你看好大模型這一新解法嗎？你認(rèn)為還有哪些挑戰(zhàn)需要解決？

責(zé)任編輯：姜華來源：量子位

大模型 DriveMLM 自動(dòng)駕駛

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<blockquote id="iptyf"></blockquote>}

<cite id="iptyf"></cite>

<sub id="iptyf"></sub>

<cite id="iptyf"></cite>