理解老司機(jī),超越老司機(jī)!LeapAD:具身智能加持下的雙過程自駕系統(tǒng)(上海AI Lab等)
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
論文信息
- 論文題目:Continuously Learning, Adapting, and, Improving: A Dual-Process Approach to Autonomous Driving
- 論文發(fā)表單位:浙江大學(xué),上海人工智能實(shí)驗(yàn)室,華東師范大學(xué)
- 論文地址:https://arxiv.org/abs/2405.15324
- 代碼地址:https://github.com/PJLab-ADG/LeapAD
研究動(dòng)機(jī)
最近的數(shù)據(jù)驅(qū)動(dòng)方法在自動(dòng)駕駛領(lǐng)域取得了巨大的成功, 然而,這些方法在很大程度上依賴于訓(xùn)練數(shù)據(jù)分布,它們主要是對(duì)觀察到的模式進(jìn)行歸納,而沒有推論的能力。自動(dòng)駕駛算法雖然能學(xué)會(huì)一些模式,但在遇到復(fù)雜情況時(shí),它可能會(huì)做出錯(cuò)誤的判斷,因?yàn)樗鼪]有理解底層的語(yǔ)義信息和事物之間的關(guān)系。這就好比是,讓一個(gè)只見過斑點(diǎn)狗的人來(lái)描述所有狗的外貌,可能會(huì)有些不準(zhǔn)確。因此,迫切需要一種能夠?qū)ξ匆娺^的場(chǎng)景進(jìn)行推理并以人類認(rèn)知方式利用駕駛知識(shí)的系統(tǒng)。
我們?nèi)祟悓W(xué)習(xí)開車的過程其實(shí)是個(gè)不斷嘗試和學(xué)習(xí)的過程。人類司機(jī)會(huì)根據(jù)周圍的情況作出決定,然后根據(jù)反饋來(lái)調(diào)整駕駛行為。這是因?yàn)槿祟惖拇竽X有兩套系統(tǒng)在協(xié)同工作:1) 一個(gè)是快速、基于經(jīng)驗(yàn)的,就好像是直覺——啟發(fā)式過程(系統(tǒng)-I);2) 另一個(gè)是緩慢、理性的,更像是邏輯推理——分析過程(系統(tǒng)-II)。這兩種思維方式在我們學(xué)習(xí)開車的過程中都發(fā)揮了作用。
剛開始學(xué)開車的時(shí)候,我們很依賴常識(shí)和直覺。通過不斷的練習(xí)和試錯(cuò),我們逐漸培養(yǎng)出開車的技能,并且開始更理性地思考我們的行為。隨著時(shí)間的推移,這些技能變成了習(xí)慣,就像是肌肉記憶一樣,讓我們?cè)谑煜さ穆窙r下可以快速、本能地做出反應(yīng)。即使我們拿到駕照后,我們還會(huì)通過日常的駕駛和意外事故來(lái)不斷學(xué)習(xí),不斷提高我們的駕駛技能。
基于雙過程理論的自動(dòng)駕駛系統(tǒng)
基于上述動(dòng)機(jī),我們開發(fā)了一個(gè)具有不斷學(xué)習(xí)、適應(yīng)和改進(jìn)能力的雙過程閉環(huán)自動(dòng)駕駛系統(tǒng)——LeapAD。與人類的注意力機(jī)制類似,LeapAD中的場(chǎng)景理解模塊主要關(guān)注可能影響駕駛決策的關(guān)鍵物體,簡(jiǎn)化環(huán)境描述和決策過程?;趫?chǎng)景理解模塊提供的環(huán)境描述,我們?cè)O(shè)計(jì)了一個(gè)模擬人類認(rèn)知過程的雙過程決策模塊,包括啟發(fā)式過程和分析過程。通過閉環(huán)實(shí)驗(yàn),分析過程積累經(jīng)驗(yàn)并構(gòu)建包含高質(zhì)量駕駛決策的可轉(zhuǎn)移記憶庫(kù)。這些知識(shí)可以適應(yīng)各種場(chǎng)景并能夠遷移到啟發(fā)式過程中,用于后續(xù)的閉環(huán)決策。當(dāng)交通事故發(fā)生時(shí),分析過程介入并分析歷史事件并更新記憶庫(kù),使系統(tǒng)能夠通過自我反思不斷改進(jìn)。
LeapAD框架介紹
如下圖所示,LeapAD由3部分組成:(1)用于場(chǎng)景理解的VLM;(2)由分析過程和啟發(fā)式過程組成的雙進(jìn)程決策模塊 ;(3)以及用于低級(jí)控制的操作執(zhí)行器。
場(chǎng)景理解模塊:、我們?nèi)祟愒陂_車時(shí)會(huì)特別關(guān)注周圍的重要事物,這樣可以避免我們的大腦負(fù)擔(dān)過重,提高我們的反應(yīng)速度,減少出錯(cuò)的可能性。這種方法有助于我們更專注地駕駛,減少發(fā)生事故的可能。
在LeapAD中,場(chǎng)景理解模塊的設(shè)計(jì)靈感來(lái)源于人類駕駛中的注意力管理,它聚焦于關(guān)鍵對(duì)象,以減少?zèng)Q策過程中的信息過載。通過這種方法,系統(tǒng)能夠快速識(shí)別并理解車輛、自行車、交通信號(hào)、停車標(biāo)志等重要元素,這些元素的詳細(xì)描述有助于駕駛者做出準(zhǔn)確和及時(shí)的反應(yīng)。
基礎(chǔ)視覺語(yǔ)言模型(VLM)在通用領(lǐng)域表現(xiàn)良好,但在駕駛特定領(lǐng)域的知識(shí)上有所欠缺。因此,我們采取了有監(jiān)督微調(diào)(SFT)策略,利用11K個(gè)經(jīng)過標(biāo)注的數(shù)據(jù)樣本,對(duì)VLM進(jìn)行訓(xùn)練。這個(gè)過程讓模型能夠輸出與駕駛決策直接相關(guān)的語(yǔ)言描述,包括:
- 語(yǔ)義屬性:模型能識(shí)別并描述交通參與者(如車輛和自行車)和交通設(shè)施(如信號(hào)燈和標(biāo)志)的類別。
- 空間屬性:提供物體的位置信息,如邊界框、車道位置以及與車輛的距離,這對(duì)于避免碰撞至關(guān)重要。
- 運(yùn)動(dòng)屬性:物體的運(yùn)動(dòng)方向,幫助駕駛者預(yù)測(cè)其可能的動(dòng)向。
- 行為推理:模型能理解這些物體對(duì)駕駛的影響,比如預(yù)測(cè)它們的行駛意圖,從而支持駕駛者做出相應(yīng)的決策。
通過這種方式,LeapAD的場(chǎng)景理解模塊不僅提升了對(duì)駕駛環(huán)境的理解,還提高了駕駛者的決策效率和安全性,確保在復(fù)雜駕駛場(chǎng)景中保持靈活和警覺。
分析過程:LeapAD的大腦,它像我們?nèi)祟惖睦硇运季S一樣,用邏輯推理來(lái)處理復(fù)雜情況,做出安全的駕駛決策。大語(yǔ)言模型(LLM) 通過在各種數(shù)據(jù)集上進(jìn)行廣泛的預(yù)訓(xùn)練,已經(jīng)囊括了大量的世界知識(shí),具有很好的推理理解和處理復(fù)雜問題的能力。這種能力恰好符合我們對(duì)駕駛場(chǎng)景中分析過程的需求,因?yàn)闆Q策必須基于深入的環(huán)境分析和情境理解。分析過程利用 LLM 的強(qiáng)大功能,利用其蘊(yùn)含的世界知識(shí)來(lái)理解場(chǎng)景描述并執(zhí)行高質(zhì)量的駕駛分析和決策。
分析過程通過閉環(huán)實(shí)驗(yàn)積累了很多經(jīng)驗(yàn),就像我們的記憶一樣。這些經(jīng)驗(yàn)可以幫助LeapAD在未來(lái)類似情況下更快速地做出反應(yīng)。我們還引入了反思機(jī)制,就像是用分析過程來(lái)反思交通事故。就像下面的圖表所示的那樣,當(dāng)系統(tǒng)的啟發(fā)式部分在進(jìn)行閉環(huán)駕駛時(shí),任何意外事件都會(huì)觸發(fā)反思機(jī)制。在這個(gè)過程中,分析過程會(huì)仔細(xì)分析事故發(fā)生前的情況,找出錯(cuò)誤,并提供正確的決策。從這個(gè)反思過程中得到的見解會(huì)被整合到記憶庫(kù)中,這樣LeapAD就能不斷地從失敗中學(xué)習(xí),并在未來(lái)的駕駛中做出更加明智、更準(zhǔn)確的決策。
啟發(fā)式過程:就好比是LeapAD的直覺,它雖然不像分析過程那樣能提供非常精確的推理和決策,但它的處理速度非???,就像我們?nèi)祟愸{駛員的肌肉記憶一樣。通過不斷的練習(xí)和經(jīng)驗(yàn),它能夠迅速適應(yīng)各種情況,而且在處理速度上比分析過程快了很多(在我們的實(shí)驗(yàn)中大約快 5 倍)。為了讓啟發(fā)式過程更好地應(yīng)用這些經(jīng)驗(yàn),我們使用了有監(jiān)督微調(diào)(SFT),就像是把知識(shí)內(nèi)化到直覺中,讓它更好地適應(yīng)各種情況。此外,它通過一種few-shot策略來(lái)增強(qiáng)對(duì)未曾見過的場(chǎng)景的處理能力,從而做出更加穩(wěn)健的決策。
在few-shot策略中,啟發(fā)式過程主要依靠當(dāng)前場(chǎng)景描述與記憶庫(kù)中存儲(chǔ)的描述之間的特征相似性來(lái)檢索相似的駕駛場(chǎng)景。然而,由于場(chǎng)景描述中存在冗余的語(yǔ)言信息,直接根據(jù)原始描述計(jì)算文本相似度使場(chǎng)景之間的區(qū)分變得困難。因此,我們聚焦于關(guān)鍵元素,如對(duì)象類別、車道位置以及與車輛的距離,來(lái)簡(jiǎn)化相似場(chǎng)景的查找過程。這樣,我們優(yōu)先考慮對(duì)駕駛決策影響重大的元素,提高了相似度計(jì)算的效率和決策的穩(wěn)健性。這種方法有效地減少了冗余信息的影響,使得直覺在處理新場(chǎng)景時(shí)更加精準(zhǔn)和有效。
實(shí)驗(yàn)結(jié)果
我們?cè)?CARLA仿真中進(jìn)行閉環(huán)實(shí)驗(yàn),以評(píng)估LeapAD的性能。為了驗(yàn)證有效性,我們?cè)赥own05基準(zhǔn)上進(jìn)行了閉環(huán)駕駛場(chǎng)景的綜合評(píng)估。我們的評(píng)估指標(biāo)包括駕駛分?jǐn)?shù) (DS)、路線完成度 (RC) 和違規(guī)分?jǐn)?shù) (IS)。RC表示代理成功導(dǎo)航的路線的比例,IS表示因事故而受到的處罰。通過將 RC 乘以 IS,我們獲得了最終的度量 DS,用于評(píng)估我們的方法在路線上的駕駛性能。
如表1所示,LeapAD優(yōu)于所有其他僅依賴相機(jī)傳感器輸入的方法此外,我們的方法超越了TransFuser,后者還利用了 LiDAR 傳感器輸入。
此外,我們還進(jìn)行了一系列的消融實(shí)驗(yàn)來(lái)驗(yàn)證LeapAD的持續(xù)學(xué)習(xí)能力。我們發(fā)現(xiàn),當(dāng)shot個(gè)數(shù)從0個(gè)增加到3個(gè),系統(tǒng)的閉環(huán)表現(xiàn)逐步提升。證明了記憶庫(kù)中經(jīng)驗(yàn)的價(jià)值和few-shot這種形式對(duì)反思過程的有效性。并且我們的實(shí)驗(yàn)還表明隨著記憶庫(kù)大小的增加,性能會(huì)逐漸提高。這進(jìn)一步證明了我們提出的LeapAD的持續(xù)學(xué)習(xí)能力,表明我們的模型的性能可以隨著經(jīng)驗(yàn)的積累而提高。另外我們還從反思過程和記憶庫(kù)的遷移性兩方面的消融實(shí)驗(yàn)進(jìn)一步證明LeapAD的可持續(xù)學(xué)習(xí)能力。我們選擇了一些得分較低的路線進(jìn)行多輪反思實(shí)驗(yàn),反思后的經(jīng)驗(yàn)被添加到記憶庫(kù)中。通過圖 5我們可以看到反思5次后,DS可以從29.34提升到88.89,這證明了反思機(jī)制能夠顯著提高LeapAD的性能。
Demo 示例
下面是幾個(gè)簡(jiǎn)單的閉環(huán)實(shí)驗(yàn)示例:
這段視頻主要展現(xiàn)了我們的模型對(duì)于車禍這種corner case的反應(yīng)。即使訓(xùn)練數(shù)據(jù)中很少有這樣的場(chǎng)景,面對(duì)突發(fā)情況LeapAD也可以及時(shí)制動(dòng)。
這段視頻主要反映了車應(yīng)對(duì)復(fù)雜十字路口的情況,可以看到LeapAD可以輕松跟隨紅綠燈的指示。
這段視頻反映了車輛面對(duì)一些停車標(biāo)識(shí)和突然出現(xiàn)的行人的反應(yīng)。車輛在經(jīng)過并看到停止信號(hào)時(shí)停止,啟動(dòng)后,面對(duì)橫穿的行人能夠及時(shí)制動(dòng)。
總結(jié)
LeapAD是一套先進(jìn)的自動(dòng)駕駛系統(tǒng),它具備持續(xù)學(xué)習(xí)、靈活適應(yīng)和不斷優(yōu)化的能力,仿佛賦予了車輛一顆智慧之心。與人類注意力的運(yùn)作機(jī)制相類似,該系統(tǒng)能夠精準(zhǔn)捕捉對(duì)駕駛決策至關(guān)重要的信息,從而有效簡(jiǎn)化駕駛環(huán)境,降低決策過程中的復(fù)雜性。LeapAD擁有兩種截然不同的決策模式。一種模式依賴于快速且基于經(jīng)驗(yàn)的決策機(jī)制,仿佛人類的直覺一般迅捷而準(zhǔn)確;而另一種模式則通過深入細(xì)致的分析推理來(lái)做出決策,就如同人類深思熟慮的過程。這兩種模式共同協(xié)作,使LeapAD能夠在各種駕駛場(chǎng)景中展現(xiàn)出卓越的性能。不僅如此,LeapAD還具備強(qiáng)大的自我完善能力,能夠不斷學(xué)習(xí)和進(jìn)步。它能夠與現(xiàn)有的智能汽車系統(tǒng)完美地?zé)o縫融合,在車輛運(yùn)行過程中,LeapAD能夠同時(shí)進(jìn)行雙過程決策,即在邊緣運(yùn)行中進(jìn)行啟發(fā)式?jīng)Q策,同時(shí)又能借助云端處理更為復(fù)雜的駕駛場(chǎng)景。這種獨(dú)特的能力使得LeapAD在自動(dòng)駕駛領(lǐng)域脫穎而出,為未來(lái)的智能交通發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ),為人們提供更為安全、舒適的駕乘體驗(yàn)。