完全地理解這個(gè)世界是世界模型要干的事!2024自動(dòng)駕駛世界模型大觀~
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
何謂世界模型?
“整體上來說,完全地理解這個(gè)世界是世界模型要干的事?!薄紊偾湓诮邮懿稍L中說到。
那么何謂世界模型呢?按照最初wayve展示的demo,世界模型依賴實(shí)車采集的海量數(shù)據(jù),基于生成模型去生成未來場(chǎng)景來和真實(shí)的未來時(shí)刻數(shù)據(jù),進(jìn)而進(jìn)行監(jiān)督,這是典型的無監(jiān)督訓(xùn)練。其最巧妙的地方則在于要想成功預(yù)測(cè)未來時(shí)刻的場(chǎng)景,你必須對(duì)現(xiàn)在時(shí)刻場(chǎng)景的語義信息以及世界演化的規(guī)律有著深刻的了解。當(dāng)下自動(dòng)駕駛方向的世界模型可以分成兩大類:生成式和端到端。今天自動(dòng)駕駛之心就和大家一起盤點(diǎn)一下今年以來這方面的工作,文末總結(jié)!
RenderWorld: World Model with Self-Supervised 3D Label
- 論文鏈接:https://arxiv.org/abs/2409.11356v1
上??萍即髮W(xué)的工作:僅使用視覺的端到端自動(dòng)駕駛不僅比LiDAR視覺融合更具成本效益,而且比傳統(tǒng)方法更可靠。為了實(shí)現(xiàn)經(jīng)濟(jì)且穩(wěn)健的純視覺自動(dòng)駕駛系統(tǒng),我們提出了RenderWorld,這是一種僅支持視覺的端到端自動(dòng)駕駛框架,它使用基于自監(jiān)督高斯的Img2Occ模塊生成3D占用標(biāo)簽,然后通過AM-VAE對(duì)標(biāo)簽進(jìn)行編碼,并使用世界模型進(jìn)行預(yù)測(cè)和規(guī)劃。RenderWorld采用高斯散射來表示3D場(chǎng)景和渲染2D圖像,與基于NeRF的方法相比,大大提高了分割精度并降低了GPU內(nèi)存消耗。通過應(yīng)用AM-VAE分別對(duì)空氣和非空氣進(jìn)行編碼,RenderWorld實(shí)現(xiàn)了更細(xì)粒度的場(chǎng)景元素表示,從而在自回歸世界模型的4D占用預(yù)測(cè)和運(yùn)動(dòng)規(guī)劃方面取得了最先進(jìn)的性能。
OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving
- 論文鏈接:https://arxiv.org/abs/2409.03272v1
復(fù)旦和清華等團(tuán)隊(duì)的工作:多模態(tài)大語言模型(MLLM)的興起刺激了它們?cè)谧詣?dòng)駕駛中的應(yīng)用。最近基于MLLM的方法通過學(xué)習(xí)從感知到行動(dòng)的直接映射來實(shí)現(xiàn)最終控制,忽略了世界的動(dòng)態(tài)以及行動(dòng)與世界動(dòng)態(tài)之間的關(guān)系。相比之下,人類擁有世界模型,使他們能夠基于3D內(nèi)部視覺表示來模擬未來的狀態(tài),并相應(yīng)地計(jì)劃行動(dòng)。為此,我們提出了OccLLaMA,這是一種占用語言動(dòng)作生成世界模型,它使用語義占用作為一般的視覺表示,并通過自回歸模型統(tǒng)一視覺語言動(dòng)作(VLA)模式。具體來說,我們引入了一種新的類似VQVAE的場(chǎng)景標(biāo)記器,以有效地離散和重建語義占用場(chǎng)景,同時(shí)考慮到其稀疏性和類不平衡性。然后,我們?yōu)橐曈X、語言和動(dòng)作構(gòu)建了一個(gè)統(tǒng)一的多模態(tài)詞匯表。此外,我們?cè)鰪?qiáng)了LLM,特別是LLaMA,以對(duì)統(tǒng)一詞匯表執(zhí)行下一個(gè)令牌/場(chǎng)景預(yù)測(cè),從而完成自動(dòng)駕駛中的多項(xiàng)任務(wù)。大量實(shí)驗(yàn)表明,OccLLaMA在多個(gè)任務(wù)中都取得了具有競(jìng)爭(zhēng)力的性能,包括4D占用預(yù)測(cè)、運(yùn)動(dòng)規(guī)劃和視覺問答,展示了其作為自動(dòng)駕駛基礎(chǔ)模型的潛力。
Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models
- 論文鏈接:https://arxiv.org/abs/2409.16663v2
英偉達(dá)的工作:我們建議使用潛在空間生成世界模型來解決自動(dòng)駕駛中的協(xié)變量轉(zhuǎn)換問題。世界模型是一種神經(jīng)網(wǎng)絡(luò),能夠根據(jù)過去的狀態(tài)和動(dòng)作預(yù)測(cè)代理的下一個(gè)狀態(tài)。通過在訓(xùn)練過程中利用世界模型,駕駛策略有效地緩解了協(xié)變量變化,而不需要過多的訓(xùn)練數(shù)據(jù)。在端到端訓(xùn)練期間,我們的策略通過與人類演示中觀察到的狀態(tài)對(duì)齊來學(xué)習(xí)如何從錯(cuò)誤中恢復(fù),以便在運(yùn)行時(shí)可以從訓(xùn)練分布之外的擾動(dòng)中恢復(fù)。此外我們介紹了一種基于Transformer的感知編碼器,該編碼器采用多視圖交叉注意力和學(xué)習(xí)場(chǎng)景查詢。我們呈現(xiàn)了定性和定量結(jié)果,展示了在CARLA模擬器閉環(huán)測(cè)試方面對(duì)現(xiàn)有技術(shù)的顯著改進(jìn),并展示了CARLA和NVIDIA DRIVE Sim處理擾動(dòng)的能力。
Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving
- 論文鏈接:https://arxiv.org/abs/2408.14197v1
浙大&華為團(tuán)隊(duì)的工作:世界模型基于各種自車行為設(shè)想了潛在的未來狀態(tài)。它們嵌入了關(guān)于駕駛環(huán)境的廣泛知識(shí),促進(jìn)了安全和可擴(kuò)展的自動(dòng)駕駛。大多數(shù)現(xiàn)有方法主要關(guān)注數(shù)據(jù)生成或世界模型的預(yù)訓(xùn)練范式。與上述先前的工作不同,我們提出了Drive OccWorld,它將以視覺為中心的4D預(yù)測(cè)世界模型應(yīng)用于自動(dòng)駕駛的端到端規(guī)劃。具體來說,我們首先在內(nèi)存模塊中引入語義和運(yùn)動(dòng)條件規(guī)范化,該模塊從歷史BEV嵌入中積累語義和動(dòng)態(tài)信息。然后將這些BEV特征傳送到世界解碼器,以進(jìn)行未來的占用和流量預(yù)測(cè),同時(shí)考慮幾何和時(shí)空建模。此外,我們建議在世界模型中注入靈活的動(dòng)作條件,如速度、轉(zhuǎn)向角、軌跡和命令,以實(shí)現(xiàn)可控生成,并促進(jìn)更廣泛的下游應(yīng)用。此外,我們探索將4D世界模型的生成能力與端到端規(guī)劃相結(jié)合,從而能夠使用基于占用的成本函數(shù)對(duì)未來狀態(tài)進(jìn)行連續(xù)預(yù)測(cè)并選擇最佳軌跡。對(duì)nuScenes數(shù)據(jù)集的廣泛實(shí)驗(yàn)表明,我們的方法可以生成合理可控的4D占用率,為推動(dòng)世界生成和端到端規(guī)劃開辟了新途徑。
BEVWorld: A Multimodal World Model for Autonomous Driving via Unified BEV Latent Space
- 論文鏈接:https://arxiv.org/abs/2407.05679v2
- 開源鏈接:https://github.com/zympsyche/BevWorld
百度的工作:世界模型因其預(yù)測(cè)潛在未來情景的能力而在自動(dòng)駕駛領(lǐng)域受到越來越多的關(guān)注。在本文中,我們提出了BEVWorld,這是一種將多模態(tài)傳感器輸入標(biāo)記為統(tǒng)一緊湊的鳥瞰圖(BEV)潛在空間以進(jìn)行環(huán)境建模的新方法。世界模型由兩部分組成:多模態(tài)標(biāo)記器和潛在BEV序列擴(kuò)散模型。多模態(tài)標(biāo)記器首先對(duì)多模態(tài)信息進(jìn)行編碼,解碼器能夠以自監(jiān)督的方式通過光線投射渲染將潛在的BEV標(biāo)記重建為L(zhǎng)iDAR和圖像觀測(cè)。然后,潛在的BEV序列擴(kuò)散模型在給定動(dòng)作標(biāo)記作為條件的情況下預(yù)測(cè)未來的情景。實(shí)驗(yàn)證明了BEVWorld在自動(dòng)駕駛?cè)蝿?wù)中的有效性,展示了其生成未來場(chǎng)景的能力,并使感知和運(yùn)動(dòng)預(yù)測(cè)等下游任務(wù)受益。
Planning with Adaptive World Models for Autonomous Driving
- 論文鏈接:https://arxiv.org/abs/2406.10714v2
- 項(xiàng)目主頁:https://arunbalajeev.github.io/world_models_planning/world_model_paper.html
卡內(nèi)基梅隆大學(xué)的工作:運(yùn)動(dòng)規(guī)劃對(duì)于復(fù)雜城市環(huán)境中的安全導(dǎo)航至關(guān)重要。從歷史上看,運(yùn)動(dòng)規(guī)劃器(MP)已經(jīng)用程序生成的模擬器(如CARLA)進(jìn)行了評(píng)估。然而,這種合成基準(zhǔn)并不能捕捉到現(xiàn)實(shí)世界中的多智能體交互。nuPlan是最近發(fā)布的MP基準(zhǔn)測(cè)試,它通過用閉環(huán)仿真邏輯增強(qiáng)現(xiàn)實(shí)世界的駕駛?cè)罩緛斫鉀Q這一局限性,有效地將固定數(shù)據(jù)集轉(zhuǎn)化為反應(yīng)式模擬器。我們分析了nuPlan記錄日志的特征,發(fā)現(xiàn)每個(gè)城市都有自己獨(dú)特的駕駛行為,這表明穩(wěn)健的規(guī)劃者必須適應(yīng)不同的環(huán)境。我們學(xué)習(xí)使用BehaviorNet對(duì)這種獨(dú)特的行為進(jìn)行建模,BehaviorNet是一種圖卷積神經(jīng)網(wǎng)絡(luò)(GCNN),它使用最近觀察到的代理歷史中得出的特征來預(yù)測(cè)反應(yīng)性代理行為;直覺上,一些激進(jìn)的特工可能會(huì)尾隨領(lǐng)先的車輛,而另一些則可能不會(huì)。為了模擬這種現(xiàn)象,BehaviorNet預(yù)測(cè)代理運(yùn)動(dòng)控制器的參數(shù),而不是直接預(yù)測(cè)其時(shí)空軌跡(就像大多數(shù)預(yù)測(cè)者那樣)。最后,我們提出了AdaptiveDriver,這是一種基于模型預(yù)測(cè)控制(MPC)的規(guī)劃器,可以展開基于BehaviorNet預(yù)測(cè)的不同世界模型。我們廣泛的實(shí)驗(yàn)表明,AdaptiveDriver在nuPlan閉環(huán)規(guī)劃基準(zhǔn)上取得了最先進(jìn)的結(jié)果,在Test-14 Hard R-CLS上比之前的工作提高了2%,即使在從未見過的城市進(jìn)行評(píng)估時(shí)也具有普遍性。
Enhancing End-to-End Autonomous Driving with Latent World Model
- 論文鏈接:https://arxiv.org/abs/2406.08481v1
中科院和中科院自動(dòng)化研究所等團(tuán)隊(duì)的工作:端到端自動(dòng)駕駛引起了廣泛關(guān)注。當(dāng)前的端到端方法在很大程度上依賴于感知任務(wù)的監(jiān)督,如檢測(cè)、跟蹤和地圖分割,以幫助學(xué)習(xí)場(chǎng)景表示。然而,這些方法需要大量的標(biāo)注,阻礙了數(shù)據(jù)的可擴(kuò)展性。為了應(yīng)對(duì)這一挑戰(zhàn),我們提出了一種新的自監(jiān)督方法來增強(qiáng)端到端的驅(qū)動(dòng),而不需要昂貴的標(biāo)簽。具體來說,我們的框架LAW使用LAtent World model,根據(jù)預(yù)測(cè)的自車行為和當(dāng)前框架的潛在特征來預(yù)測(cè)未來的潛在特征。預(yù)測(cè)的潛在特征由未來實(shí)際觀察到的特征進(jìn)行監(jiān)督。這種監(jiān)督聯(lián)合優(yōu)化了潛在特征學(xué)習(xí)和動(dòng)作預(yù)測(cè),大大提高了駕駛性能。因此,我們的方法在開環(huán)和閉環(huán)基準(zhǔn)測(cè)試中都實(shí)現(xiàn)了最先進(jìn)的性能,而無需昂貴的標(biāo)注。
Probing Multimodal LLMs as World Models for Driving
- 論文鏈接:https://arxiv.org/abs/2405.05956v1
- 開源鏈接:https://github.com/sreeramsa/DriveSim
MIT等團(tuán)隊(duì)的工作:我們冷靜地看待了多模態(tài)大語言模型(MLLM)在自動(dòng)駕駛領(lǐng)域的應(yīng)用,并挑戰(zhàn)/驗(yàn)證了一些常見的假設(shè),重點(diǎn)是它們?cè)陂]環(huán)控制環(huán)境中通過圖像/幀序列推理和解釋動(dòng)態(tài)駕駛場(chǎng)景的能力。盡管GPT-4V等MLLM取得了重大進(jìn)展,但它們?cè)趶?fù)雜、動(dòng)態(tài)駕駛環(huán)境中的性能在很大程度上仍未經(jīng)過測(cè)試,這是一個(gè)廣泛的探索領(lǐng)域。我們進(jìn)行了一項(xiàng)全面的實(shí)驗(yàn)研究,從固定車載攝像頭的角度評(píng)估各種MLLM作為世界駕駛模型的能力。我們的研究結(jié)果表明,雖然這些模型能夠熟練地解釋單個(gè)圖像,但它們?cè)诳缑枋鰟?dòng)態(tài)行為的框架合成連貫的敘事或邏輯序列方面存在很大困難。實(shí)驗(yàn)表明,在預(yù)測(cè)(i)基本車輛動(dòng)力學(xué)(前進(jìn)/后退、加速/減速、右轉(zhuǎn)或左轉(zhuǎn))、(ii)與其他道路參與者的相互作用(例如,識(shí)別超速行駛的汽車或繁忙的交通)、(iii)軌跡規(guī)劃和(iv)開放集動(dòng)態(tài)場(chǎng)景推理方面存在相當(dāng)大的不準(zhǔn)確性,這表明模型訓(xùn)練數(shù)據(jù)中存在偏差。為了實(shí)現(xiàn)這項(xiàng)實(shí)驗(yàn)研究,我們引入了一個(gè)專門的模擬器DriveSim,旨在生成各種駕駛場(chǎng)景,為評(píng)估駕駛領(lǐng)域的MLLM提供平臺(tái)。此外,我們還貢獻(xiàn)了完整的開源代碼和一個(gè)新的數(shù)據(jù)集“Eval LLM Drive”,用于評(píng)估駕駛中的MLLM。我們的研究結(jié)果突顯了當(dāng)前最先進(jìn)MLLM能力的一個(gè)關(guān)鍵差距,強(qiáng)調(diào)了增強(qiáng)基礎(chǔ)模型的必要性,以提高其在現(xiàn)實(shí)世界動(dòng)態(tài)環(huán)境中的適用性。
OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving
- 論文鏈接:https://arxiv.org/abs/2405.20337
- 開源鏈接:https://github.com/wzzheng/OccSora
北航&UC Berkeley等團(tuán)隊(duì)的工作:了解3D場(chǎng)景的演變對(duì)于有效的自動(dòng)駕駛非常重要。雖然傳統(tǒng)方法將場(chǎng)景開發(fā)與單個(gè)實(shí)例的運(yùn)動(dòng)相結(jié)合,但世界模型作為一個(gè)生成框架出現(xiàn),用于描述一般的場(chǎng)景動(dòng)態(tài)。然而大多數(shù)現(xiàn)有方法采用自回歸框架來執(zhí)行下一個(gè)令牌預(yù)測(cè),這在建模長(zhǎng)期時(shí)間演化方面效率低下。為了解決這個(gè)問題,我們提出了一種基于擴(kuò)散的4D占用生成模型OccSora,來模擬自動(dòng)駕駛3D世界的發(fā)展。我們采用4D場(chǎng)景標(biāo)記器來獲得4D占用輸入的緊湊離散時(shí)空表示,并實(shí)現(xiàn)長(zhǎng)序列占用視頻的高質(zhì)量重建。然后,我們學(xué)習(xí)時(shí)空表示上的擴(kuò)散Transformer,并根據(jù)軌跡提示生成4D占用率。我們對(duì)廣泛使用的具有Occ3D占用注釋的nuScenes數(shù)據(jù)集進(jìn)行了廣泛的實(shí)驗(yàn)。OccSora可以生成具有真實(shí)3D布局和時(shí)間一致性的16秒視頻,展示了其理解駕駛場(chǎng)景的空間和時(shí)間分布的能力。通過軌跡感知4D生成,OccSora有可能成為自動(dòng)駕駛決策的世界模擬器。
DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation
- 論文鏈接:https://arxiv.org/abs/2403.06845v2
- 項(xiàng)目主頁:https://drivedreamer2.github.io/
中科院自動(dòng)化研究所&GigaAI團(tuán)隊(duì)的工作:世界模型在自動(dòng)駕駛方面表現(xiàn)出了優(yōu)勢(shì),特別是在生成多視圖駕駛視頻方面。然而,在生成定制的駕駛視頻方面仍然存在重大挑戰(zhàn)。在本文中,我們提出了DriveDreamer-2,它基于DriveDreamer的框架,并結(jié)合了一個(gè)大型語言模型(LLM)來生成用戶定義的駕駛視頻。具體來說,最初結(jié)合了LLM接口,將用戶的查詢轉(zhuǎn)換為代理軌跡。隨后,根據(jù)軌跡生成符合交通規(guī)則的HDMap。最終,我們提出了統(tǒng)一多視圖模型來增強(qiáng)生成的駕駛視頻中的時(shí)間和空間連貫性。DriveDreamer-2是世界上第一款生成定制駕駛視頻的車型,它可以以用戶友好的方式生成不常見的駕駛視頻(例如,突然切入的車輛)。此外,實(shí)驗(yàn)結(jié)果表明,生成的視頻增強(qiáng)了駕駛感知方法(如3D檢測(cè)和跟蹤)的訓(xùn)練。此外,DriveDreamer-2的視頻生成質(zhì)量超越了其他最先進(jìn)的方法,顯示FID和FVD得分分別為11.2和55.7,相對(duì)提高了30%和50%。
WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens
- 論文鏈接:https://arxiv.org/abs/2401.09985v1
- 項(xiàng)目主頁:https://world-dreamer.github.io/
GigaAI和清華團(tuán)隊(duì)的工作:世界模型在理解和預(yù)測(cè)世界動(dòng)態(tài)方面發(fā)揮著至關(guān)重要的作用,這對(duì)視頻生成至關(guān)重要。然而,現(xiàn)有的世界模型僅限于游戲或駕駛等特定場(chǎng)景,限制了它們捕捉一般世界動(dòng)態(tài)環(huán)境復(fù)雜性的能力。因此,我們介紹WorldDreamer,這是一個(gè)開創(chuàng)性的世界模型,旨在培養(yǎng)對(duì)一般世界物理和運(yùn)動(dòng)的全面理解,從而顯著增強(qiáng)視頻生成的能力。WorldDreamer從大型語言模型的成功中汲取靈感,將世界建模定義為無監(jiān)督的視覺序列建模挑戰(zhàn)。這是通過將視覺輸入映射到離散的令牌并預(yù)測(cè)掩碼來實(shí)現(xiàn)的。在此過程中,我們結(jié)合了多模式提示,以促進(jìn)世界模型內(nèi)的交互。我們的實(shí)驗(yàn)表明,WorldDreamer在生成不同場(chǎng)景的視頻方面表現(xiàn)出色,包括自然場(chǎng)景和駕駛環(huán)境。WorldDreamer展示了在執(zhí)行文本到視頻轉(zhuǎn)換、圖像到視頻合成和視頻編輯等任務(wù)方面的多功能性。這些結(jié)果突顯了WorldDreamer在捕捉不同一般世界環(huán)境中的動(dòng)態(tài)元素方面的有效性。
Think2Drive: Efficient Reinforcement Learning by Thinking in Latent World Model for Quasi-Realistic Autonomous Driving (in CARLA-v2)
- 論文鏈接:https://arxiv.org/abs/2402.16720v2
上交的工作:現(xiàn)實(shí)世界中的自動(dòng)駕駛(AD),尤其是城市駕駛,涉及許多彎道情況。最近發(fā)布的AD模擬器CARLA v2在駕駛場(chǎng)景中增加了39個(gè)常見事件,與CARLA v1相比提供了更逼真的測(cè)試平臺(tái)。它給社區(qū)帶來了新的挑戰(zhàn),到目前為止,還沒有文獻(xiàn)報(bào)道V2中的新場(chǎng)景取得了任何成功,因?yàn)楝F(xiàn)有的工作大多必須依賴于特定的規(guī)劃規(guī)則,但它們無法涵蓋CARLA V2中更復(fù)雜的案例。在這項(xiàng)工作中,我們主動(dòng)直接訓(xùn)練一個(gè)規(guī)劃者,希望靈活有效地處理極端情況,我們認(rèn)為這也是AD的未來。據(jù)我們所知,我們開發(fā)了第一個(gè)基于模型的RL方法,名為Think2Drive for AD,使用世界模型來學(xué)習(xí)環(huán)境的轉(zhuǎn)變,然后它充當(dāng)神經(jīng)模擬器來訓(xùn)練規(guī)劃者。由于低維狀態(tài)空間和世界模型中張量的并行計(jì)算,這種范式顯著提高了訓(xùn)練效率。因此,Think2Drive能夠在單個(gè)A6000 GPU上訓(xùn)練3天內(nèi)以專家級(jí)熟練程度運(yùn)行CARLA v2,據(jù)我們所知,到目前為止,CARLA v2上還沒有成功的報(bào)告(100%的路線完成)。我們還提出了CornerCase Repository,這是一個(gè)支持按場(chǎng)景評(píng)估駕駛模型的基準(zhǔn)。此外,我們提出了一種新的平衡指標(biāo),通過路線完成情況、違規(guī)次數(shù)和場(chǎng)景密度來評(píng)估性能,以便駕駛分?jǐn)?shù)可以提供更多關(guān)于實(shí)際駕駛性能的信息。
OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving
- 論文鏈接:https://arxiv.org/abs/2311.16038v1
- 開源鏈接:https://github.com/wzzheng/OccWorld
清華團(tuán)隊(duì)的工作:了解3D場(chǎng)景如何演變對(duì)于自動(dòng)駕駛決策至關(guān)重要。大多數(shù)現(xiàn)有方法通過預(yù)測(cè)對(duì)象框的運(yùn)動(dòng)來實(shí)現(xiàn)這一點(diǎn),這無法捕獲更細(xì)粒度的場(chǎng)景信息。本文探索了一種在3D占用空間中學(xué)習(xí)世界模型OccWorld的新框架,以同時(shí)預(yù)測(cè)自車的運(yùn)動(dòng)和周圍場(chǎng)景的演變。我們建議基于3D占用而不是3D邊界框和分割圖來學(xué)習(xí)世界模型,原因有三:1)表現(xiàn)力:3D占用可以描述場(chǎng)景的更細(xì)粒度的3D結(jié)構(gòu);2)效率:獲得3D占用率更經(jīng)濟(jì)(例如,從稀疏的LiDAR點(diǎn))。3)多功能性:3D占用可以適應(yīng)視覺和激光雷達(dá)。為了便于對(duì)世界演化進(jìn)行建模,我們學(xué)習(xí)了一種基于重建的3D占用場(chǎng)景標(biāo)記器,以獲得離散的場(chǎng)景標(biāo)記來描述周圍的場(chǎng)景。然后,我們采用類似GPT的時(shí)空生成Transformer來生成后續(xù)場(chǎng)景和自車令牌,以解碼未來的占用和自車軌跡。在廣泛使用的nuScenes基準(zhǔn)上進(jìn)行的廣泛實(shí)驗(yàn)證明了OccWorld有效模擬駕駛場(chǎng)景演變的能力。OccWorld還可以在不使用實(shí)例和地圖監(jiān)督的情況下生成具有競(jìng)爭(zhēng)力的規(guī)劃結(jié)果。
從這些工作中我們可以總結(jié)出以下幾點(diǎn):
- 基于世界模型的端到端方法還在持續(xù)發(fā)展,未來能否落地還需觀望;
- Occ任務(wù)可以無縫地同世界模型相結(jié)合,引入VLM和3D GS也是未來可以進(jìn)一步擴(kuò)展研究的方向;
- 世界模型的核心是生成?;谏傻目蚣?,可以添加很多模塊,以進(jìn)一步增強(qiáng)可是解釋性和提升性能。
- 當(dāng)下世界模型對(duì)運(yùn)動(dòng)規(guī)律、物理規(guī)則的建模能力還有限。