理解世界,最新綜述開啟自動駕駛新時代
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
寫在前面&筆者的個人理解
在快速發(fā)展的自動駕駛領(lǐng)域,準(zhǔn)確預(yù)測未來事件并評估其影響的能力對安全性和效率至關(guān)重要,對決策過程至關(guān)重要。世界模型已經(jīng)成為一種變革性的方法,使自動駕駛系統(tǒng)能夠合成和解釋大量的傳感器數(shù)據(jù),從而預(yù)測潛在的未來場景并彌補信息差距。本文對自動駕駛世界模型的現(xiàn)狀和未來進(jìn)展進(jìn)行了初步回顧,涵蓋了它們的理論基礎(chǔ)、實際應(yīng)用以及旨在克服現(xiàn)有局限性的正在進(jìn)行的研究工作。這項調(diào)查強調(diào)了世界模型在推進(jìn)自動駕駛技術(shù)方面的重要作用,希望成為研究界的基礎(chǔ)參考,促進(jìn)快速進(jìn)入和理解這一新興領(lǐng)域,并激勵持續(xù)的創(chuàng)新和探索。
簡介
開發(fā)能夠在復(fù)雜的現(xiàn)實世界場景中無縫導(dǎo)航的自動駕駛系統(tǒng),仍然是當(dāng)代技術(shù)的一個強大前沿。這一挑戰(zhàn)不僅是技術(shù)性的,而且是哲學(xué)性的,探索將人類智能與人工構(gòu)建區(qū)分開來的認(rèn)知和感知的本質(zhì)。這一挑戰(zhàn)的關(guān)鍵在于向機(jī)器灌輸人類毫不費力就能運用的直覺推理和“常識”。當(dāng)前的機(jī)器學(xué)習(xí)系統(tǒng),盡管有著強大的能力,但在人類輕松解決的模式識別任務(wù)中往往會出現(xiàn)失誤,這凸顯了我們在尋求真正自主系統(tǒng)方面的巨大差距。另一方面,人類的決策深深植根于感官感知,受到這些感知的記憶和直接觀察的約束。除了感知之外,人類還擁有預(yù)測行動結(jié)果、預(yù)見潛在未來和預(yù)測感官輸入變化的神奇能力,這些能力是我們與世界互動的基礎(chǔ)。在機(jī)器中復(fù)制這種能力的努力不僅是一項工程挑戰(zhàn),也是彌合人類和機(jī)器智能之間認(rèn)知鴻溝的一步。
為了解決這一差距,世界模型已成為一種關(guān)鍵的解決方案,通過模擬人類感知和決策過程,為系統(tǒng)提供預(yù)測和適應(yīng)動態(tài)環(huán)境的能力。面對現(xiàn)實世界場景的復(fù)雜性和不可預(yù)測性,這種進(jìn)化至關(guān)重要,傳統(tǒng)的人工智能方法難以復(fù)制人類認(rèn)知過程的深度和可變性。世界模型具有彌合人類和機(jī)器智能之間認(rèn)知鴻溝的潛力,為實現(xiàn)更復(fù)雜的自動駕駛系統(tǒng)提供了一條途徑,這突顯了世界模型的必要性。
世界模型從20世紀(jì)70年代控制理論的概念框架到目前在人工智能研究中的突出地位,反映了技術(shù)進(jìn)化和跨學(xué)科融合的顯著軌跡。先驅(qū)們提出的控制理論的最初公式是基礎(chǔ),為動態(tài)系統(tǒng)管理中的計算模型集成奠定了基礎(chǔ)。這些早期的努力有助于證明應(yīng)用數(shù)學(xué)模型預(yù)測和控制復(fù)雜系統(tǒng)的潛力,這一原理最終將成為世界模型發(fā)展的基礎(chǔ)。
隨著該領(lǐng)域的發(fā)展,神經(jīng)網(wǎng)絡(luò)的出現(xiàn)帶來了范式的轉(zhuǎn)變,使動態(tài)系統(tǒng)的建模具有無與倫比的深度和復(fù)雜性。這種從靜態(tài)線性模型到動態(tài)非線性表示的轉(zhuǎn)變促進(jìn)了對環(huán)境相互作用的更深入理解,為我們今天看到的復(fù)雜世界模型奠定了基礎(chǔ)。遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的集成尤其具有變革性,標(biāo)志著向能夠進(jìn)行時間數(shù)據(jù)處理的系統(tǒng)邁進(jìn),這對預(yù)測未來狀態(tài)和實現(xiàn)抽象推理至關(guān)重要。
2018年,Ha和Schmidhuber正式公布了世界模型,這是一個決定性的時刻,捕捉到了人工智能研究界的集體愿望,即賦予機(jī)器一種讓人想起人類意識的認(rèn)知處理水平。通過利用混合密度網(wǎng)絡(luò)(MDN)和RNN的力量,這項工作闡明了無監(jiān)督學(xué)習(xí)提取和解釋環(huán)境數(shù)據(jù)中固有的空間和時間模式的途徑。這一突破的意義怎么強調(diào)都不為過,它表明,自主系統(tǒng)可以對其運行環(huán)境實現(xiàn)細(xì)致入微的理解,以以前無法達(dá)到的準(zhǔn)確性預(yù)測未來的情景。
在自動駕駛領(lǐng)域,世界模型的引入標(biāo)志著向數(shù)據(jù)驅(qū)動智能的關(guān)鍵轉(zhuǎn)變,預(yù)測和模擬未來場景的能力成為安全和高效的基石。數(shù)據(jù)稀缺的挑戰(zhàn),特別是在純電動汽車標(biāo)簽等專業(yè)任務(wù)中,突顯了世界模型等創(chuàng)新解決方案的實際必要性。通過從歷史數(shù)據(jù)中生成預(yù)測場景,這些模型不僅規(guī)避了數(shù)據(jù)收集和標(biāo)記帶來的限制,而且增強了在模擬環(huán)境中對自主系統(tǒng)的訓(xùn)練,這些模擬環(huán)境可以反映甚至超越現(xiàn)實世界條件的復(fù)雜性。這種方法預(yù)示著一個新時代的到來,在這個時代,自動駕駛汽車配備了反映一種直覺的預(yù)測能力,使它們能夠以前所未有的復(fù)雜程度導(dǎo)航和應(yīng)對環(huán)境。
本文深入研究了復(fù)雜的世界模型,探索了它們的基本原理、方法進(jìn)步以及在自動駕駛領(lǐng)域的實際應(yīng)用。它克服了困擾該領(lǐng)域的挑戰(zhàn),預(yù)測了未來的研究軌跡,并思考了將世界模型集成到自主系統(tǒng)中的更廣泛影響。通過這樣做,這項工作不僅希望記錄這一領(lǐng)域的進(jìn)展,還希望激發(fā)人們對人工智能和人類認(rèn)知之間共生關(guān)系的更深入思考,預(yù)示著自動駕駛技術(shù)的新時代。
世界模型的發(fā)展
本節(jié)概述了世界模型的復(fù)雜架構(gòu),詳細(xì)介紹了它們的關(guān)鍵組成部分以及在各種研究中的重要應(yīng)用。這些模型被設(shè)計用于復(fù)制人類大腦的復(fù)雜認(rèn)知過程,使自主系統(tǒng)能夠以類似于人類思維的方式做出決策并了解其環(huán)境。
世界模型的架構(gòu)基礎(chǔ)
世界模型的架構(gòu)旨在模仿人腦的連貫思維和決策過程,集成了幾個關(guān)鍵組件:
1)感知模塊:這個基本元素充當(dāng)系統(tǒng)的感官輸入,類似于人類的感官。它采用先進(jìn)的傳感器和編碼器模塊,如可變自動編碼器(VAE)、Masked自動編碼器(MAE)和離散自動編碼器(DAE),將環(huán)境輸入(圖像、視頻、文本、控制命令)處理和壓縮為更易于管理的格式。該模塊的有效性對于準(zhǔn)確感知復(fù)雜動態(tài)環(huán)境至關(guān)重要,有助于詳細(xì)了解模型的后續(xù)預(yù)測和決策。
2)記憶模塊:與人類海馬體類似,記憶模塊可用于記錄和管理過去、現(xiàn)在和預(yù)測的世界狀態(tài)及其相關(guān)成本或回報。它通過回放最近的經(jīng)歷來支持短期和長期記憶功能,這一過程通過將過去的見解融入未來的決策來增強學(xué)習(xí)和適應(yīng)。該模塊綜合和保留關(guān)鍵信息的能力對于深入了解一段時間內(nèi)的環(huán)境動態(tài)至關(guān)重要。
3)控制/運動模塊:該組件直接負(fù)責(zé)通過動作與環(huán)境進(jìn)行交互。它評估當(dāng)前狀態(tài)和世界模型提供的預(yù)測,以確定旨在實現(xiàn)特定目標(biāo)的最佳行動順序,例如最小化成本或最大化回報。該模塊的復(fù)雜性在于它能夠集成感官數(shù)據(jù)、記憶和預(yù)測見解,從而做出明智的戰(zhàn)略決策,應(yīng)對現(xiàn)實世界場景的復(fù)雜性。
4)世界模型模塊:在體系結(jié)構(gòu)之前,世界模型模塊執(zhí)行兩個主要功能:估計有關(guān)當(dāng)前世界狀態(tài)的任何缺失信息和預(yù)測環(huán)境的未來狀態(tài)。這種雙重能力使系統(tǒng)能夠生成其周圍環(huán)境的全面預(yù)測模型,考慮不確定性和動態(tài)變化。通過模擬潛在的未來場景,該模塊使系統(tǒng)能夠主動準(zhǔn)備和調(diào)整其策略,反映人類認(rèn)知中的預(yù)測性和適應(yīng)性思維過程。
這些組成部分共同形成了一個強大的框架,使世界模型能夠模擬類似于人類的認(rèn)知過程和決策。通過集成這些模塊,世界模型實現(xiàn)了對其環(huán)境的全面和預(yù)測性理解,這對于開發(fā)能夠以前所未有的復(fù)雜度在現(xiàn)實世界中導(dǎo)航和交互的自主系統(tǒng)至關(guān)重要。
在高維感官輸入場景中,世界模型利用潛在的動力學(xué)模型來抽象地表示觀測到的信息,從而能夠在潛在狀態(tài)空間內(nèi)進(jìn)行緊湊的前向預(yù)測。由于深度學(xué)習(xí)和潛在變量模型的進(jìn)步,這些潛在狀態(tài)比高維數(shù)據(jù)的直接預(yù)測更具空間效率,有助于執(zhí)行許多并行預(yù)測。以十字路口汽車方向的模糊性為例,這種情況象征著現(xiàn)實世界動力學(xué)固有的不可預(yù)測性。潛在變量是表示這些不確定結(jié)果的有力工具,為世界模型設(shè)想基于當(dāng)前狀態(tài)的一系列未來可能性奠定了基礎(chǔ)。這項努力的關(guān)鍵在于將預(yù)測的確定性方面與現(xiàn)實世界現(xiàn)象的內(nèi)在不確定性相協(xié)調(diào),這是世界模型功效的核心平衡行為。
為了應(yīng)對這一挑戰(zhàn),人們提出了各種策略,從通過溫度變量引入不確定性到采用遞歸狀態(tài)空間模型(RSSM)和聯(lián)合嵌入預(yù)測架構(gòu)(JEPA)等結(jié)構(gòu)化框架。這些方法致力于微調(diào)預(yù)測的準(zhǔn)確性和靈活性之間的平衡。此外,利用Top-k采樣并從基于CNN的模型過渡到變換器架構(gòu),如變換器狀態(tài)空間模型(TSSM)或時空逐片變換器(STPT),已顯示出通過更好地近似現(xiàn)實世界的復(fù)雜性和不確定性來增強模型性能的前景。這些解決方案努力使世界模型的輸出與現(xiàn)實世界的可能發(fā)展更緊密地聯(lián)系在一起。這種一致性至關(guān)重要,因為與游戲環(huán)境相比,現(xiàn)實世界的影響因素范圍要廣得多,未來結(jié)果的隨機(jī)性也更大。過度依賴最高概率的預(yù)測可能導(dǎo)致長期預(yù)測的重復(fù)周期。相反,預(yù)測中的過度隨機(jī)性會導(dǎo)致荒謬的未來與現(xiàn)實大相徑庭。
特別是RSSM和JEPA是世界模型研究中使用最廣泛的核心結(jié)構(gòu):
1)遞歸狀態(tài)空間模型(RSSM)是Dreamer世界模型系列中的一個關(guān)鍵模型,旨在促進(jìn)純粹在潛在空間內(nèi)的前向預(yù)測。這種創(chuàng)新的結(jié)構(gòu)使模型能夠通過潛在狀態(tài)空間進(jìn)行預(yù)測,其中過渡模型中的隨機(jī)路徑和確定性路徑在成功規(guī)劃中發(fā)揮著關(guān)鍵作用。
圖3展示了三個時間步長的潛在動力學(xué)模型示意圖。該模型最初觀察兩個時間步長,然后預(yù)測第三個時間步長。在這里,隨機(jī)變量(圓形)和確定性變量(方形)在模型的體系結(jié)構(gòu)中相互作用——實線表示生成過程,而虛線表示推理路徑。圖3(a)中的初始確定性推理方法揭示了由于其固定性質(zhì),其在捕捉各種潛在未來方面的局限性。相反,考慮到其固有的不可預(yù)測性,圖3(b)中的完全隨機(jī)方法在跨時間步長的信息保持方面提出了挑戰(zhàn)。
RSSM的創(chuàng)新之處在于它將狀態(tài)戰(zhàn)略性地分解為圖3(c)中的隨機(jī)和確定性分量,有效地利用了確定性元素的預(yù)測穩(wěn)定性和隨機(jī)元素的自適應(yīng)潛力。這種混合結(jié)構(gòu)確保了強大的學(xué)習(xí)和預(yù)測能力,適應(yīng)了現(xiàn)實世界動態(tài)的不可預(yù)測性,同時保持了信息的連續(xù)性。通過將RNN的優(yōu)勢與狀態(tài)空間模型(SSM)的靈活性相結(jié)合,RSSM為世界模型建立了一個全面的框架,增強了它們預(yù)測未來狀態(tài)的能力,同時兼顧了精度和適應(yīng)性。
2)聯(lián)合嵌入預(yù)測體系結(jié)構(gòu)(JEPA)通過關(guān)注表示空間而不是直接、詳細(xì)的預(yù)測,標(biāo)志著預(yù)測建模的范式轉(zhuǎn)變。如圖4所示,通過抽象輸入(??) 和目標(biāo)(??) 通過雙編碼器轉(zhuǎn)換為表示(???? 和????), 并利用潛在變量(??) 對于預(yù)測,JEPA在效率和準(zhǔn)確性方面實現(xiàn)了顯著的飛躍。該模型擅長濾除噪聲和不相關(guān)信息,專注于預(yù)測任務(wù)的本質(zhì)。潛在變量的戰(zhàn)略使用(??) 管理不確定性進(jìn)一步細(xì)化了模型的重點,使其能夠更精確地預(yù)測抽象結(jié)果。通過優(yōu)先考慮相關(guān)特征并包含預(yù)測任務(wù)的固有不確定性,JEPA不僅簡化了預(yù)測過程,還確保了結(jié)果的相關(guān)性和可靠性,為復(fù)雜環(huán)境中的預(yù)測建模樹立了新標(biāo)準(zhǔn)。
Broad Spectrum Applications
如表1所示,世界模型在不同的環(huán)境中展示了無與倫比的性能,尤其是在游戲中,它們的功能得到了顯著展示。在雅達(dá)利100k排行榜的競爭格局中,世界車型占據(jù)主導(dǎo)地位,前五名中有四名由這些創(chuàng)新架構(gòu)占據(jù)。其中,EfficientZero在基于圖像的強化學(xué)習(xí)中顯著提高了采樣效率,利用MuZero的基本原理,在短短兩小時的訓(xùn)練內(nèi)實現(xiàn)了人類可比的游戲熟練度。在《我的世界》游戲中,DreamerV3標(biāo)志著一個里程碑,成為自主開采鉆石的首個模型,這一壯舉在沒有利用人工生成的數(shù)據(jù)或預(yù)定義的學(xué)習(xí)課程的情況下完成。這一成就歸功于其對符號預(yù)測的新穎使用,通過使用靜態(tài)符號轉(zhuǎn)換,促進(jìn)了模型在不同環(huán)境尺度上的適應(yīng)性。相反,HarmonyDream在世界模型學(xué)習(xí)中引入了一種動態(tài)的損失縮放方法,通過規(guī)模、維度和訓(xùn)練動態(tài)的復(fù)雜平衡來優(yōu)化多任務(wù)學(xué)習(xí)效率。DreamerV3的符號轉(zhuǎn)換與HarmonyDream的動態(tài)損耗調(diào)整的協(xié)同集成有可能進(jìn)一步提升世界模型的性能和多功能性。
基于圖像的聯(lián)合嵌入預(yù)測架構(gòu)(I-JEPA)說明了一種在不依賴手工制作的數(shù)據(jù)增強的情況下學(xué)習(xí)高度語義圖像表示的方法。I-JEPA使用抽象表示預(yù)測丟失的目標(biāo)信息,有效地消除了不必要的像素級細(xì)節(jié)。這使模型能夠?qū)W習(xí)更多的語義特征,通過對世界抽象表示的自我監(jiān)督學(xué)習(xí),實現(xiàn)對不完整圖像的更準(zhǔn)確分析和完成。除了圖像之外,該架構(gòu)還通過基于音頻的聯(lián)合嵌入預(yù)測架構(gòu)(A-JEPA)展示了高可擴(kuò)展性,在多個音頻和語音分類任務(wù)上設(shè)置了最先進(jìn)的性能,優(yōu)于依賴外部監(jiān)督預(yù)訓(xùn)練的模型。
在Fetch、DeepMind Control Suite和Meta world等機(jī)器人操作中,潛在探索者成就者(LEXA)通過想象力同時訓(xùn)練探索者和成就者,在40項機(jī)器人操作和移動任務(wù)中優(yōu)于以前的無監(jiān)督方法。此外,在這些任務(wù)中,L3P設(shè)計了一種新的算法來學(xué)習(xí)分散在目標(biāo)空間中的潛在地標(biāo),在三種機(jī)器人操作環(huán)境中實現(xiàn)了學(xué)習(xí)速度和測試時間泛化的優(yōu)勢。谷歌團(tuán)隊創(chuàng)新性地將世界模型的概念應(yīng)用于機(jī)器人導(dǎo)航任務(wù),利用它們來獲取周圍環(huán)境的信息,并使智能代理能夠預(yù)測其行為在特定環(huán)境中的后果。Pathdreamer在機(jī)器人導(dǎo)航中的實施利用了世界模型來增強環(huán)境意識和預(yù)測規(guī)劃,通過創(chuàng)新地使用3D點云來表示環(huán)境,顯著提高了導(dǎo)航成功率。此外,SafeDreamer將基于拉格朗日的方法集成到Dreamer框架中,用于安全強化學(xué)習(xí),證明了高性能、低成本安全應(yīng)用的可行性。
世界模型的快速訓(xùn)練能力,以DayDreamer的真實世界機(jī)器人學(xué)習(xí)效率為例,與傳統(tǒng)方法形成鮮明對比,突顯了這些模型在加速學(xué)習(xí)過程和提高性能方面的變革潛力。
虛擬場景和視頻生成成為關(guān)鍵應(yīng)用,SORA和Genie在這一領(lǐng)域取得了領(lǐng)先進(jìn)展。SORA能夠根據(jù)不同的提示制作連貫、高清晰度的視頻,這是朝著模擬復(fù)雜世界動態(tài)邁出的重要一步。盡管SORA在物理交互模擬方面面臨挑戰(zhàn),但其一致的3D空間表示突出了其作為基礎(chǔ)世界模型的潛力。Genie的交互式環(huán)境生成雖然在視頻質(zhì)量上不如SORA先進(jìn),但引入了用戶驅(qū)動的世界操縱的新維度,讓我們得以一窺世界模型在創(chuàng)建沉浸式可控虛擬現(xiàn)實方面的未來應(yīng)用。
這項全面的研究強調(diào)了世界模型的非凡多功能性和前沿性,說明了它們在推動游戲、機(jī)器人、虛擬環(huán)境生成等領(lǐng)域的創(chuàng)新方面的基礎(chǔ)作用。這些模型的能力與動態(tài)適應(yīng)和多領(lǐng)域泛化的融合預(yù)示著人工智能的新時代,在這個時代,世界模型不僅可以作為特定任務(wù)的工具,還可以作為更廣泛的探索、學(xué)習(xí)和發(fā)現(xiàn)的平臺。
自動駕駛中的世界模型
本節(jié)深入探討了世界模型在自動駕駛領(lǐng)域的變革性應(yīng)用,強調(diào)了它們對環(huán)境理解、動態(tài)預(yù)測和闡明運動物理原理的關(guān)鍵貢獻(xiàn)。作為世界模型應(yīng)用的一個新興前沿,自動駕駛領(lǐng)域為利用這些先進(jìn)的計算框架帶來了獨特的挑戰(zhàn)和機(jī)遇。盡管人們對自動駕駛的興趣與日俱增,但將世界模型融入自動駕駛主要圍繞著場景生成、規(guī)劃和控制機(jī)制展開,這些領(lǐng)域已經(jīng)成熟,可以進(jìn)行探索和創(chuàng)新。
駕駛場景生成
自動駕駛中的數(shù)據(jù)獲取遇到了巨大的障礙,包括與數(shù)據(jù)收集和注釋相關(guān)的高昂成本、法律約束和安全考慮。通過自我監(jiān)督學(xué)習(xí)范式,世界模型能夠從大量未標(biāo)記的數(shù)據(jù)中提取有價值的見解,從而以具有成本效益的方式提高模型性能,從而提供了一個有前景的解決方案。世界模型在駕駛場景生成中的應(yīng)用尤其值得注意,因為它有助于創(chuàng)建各種逼真的駕駛環(huán)境。這一能力大大豐富了訓(xùn)練數(shù)據(jù)集,使自動駕駛系統(tǒng)具有在罕見和復(fù)雜的駕駛場景中導(dǎo)航的魯棒性。
GAIA-1代表了一種新穎的自主生成人工智能模型,能夠使用視頻、文本和動作輸入創(chuàng)建逼真的駕駛視頻。GAIA-1通過Wayve接受了來自英國城市的大量真實世界駕駛數(shù)據(jù)的培訓(xùn),學(xué)習(xí)并理解駕駛場景中的一些真實世界規(guī)則和關(guān)鍵概念,包括不同類型的車輛、行人、建筑和基礎(chǔ)設(shè)施。它可以基于幾秒鐘的視頻輸入來預(yù)測和生成后續(xù)的駕駛場景。值得注意的是,生成的未來駕駛場景與提示視頻沒有密切聯(lián)系,而是基于GAIA-1對世界規(guī)則的理解。以自回歸變換器網(wǎng)絡(luò)為核心,GAIA-1預(yù)測以輸入圖像、文本和動作標(biāo)記為條件的即將到來的圖像標(biāo)記,然后將這些預(yù)測解碼回像素空間。GAIA-1可以預(yù)測多種潛在的未來,并根據(jù)提示(例如,不斷變化的天氣、場景、交通參與者、車輛動作)生成不同的視頻或特定駕駛場景,甚至包括其訓(xùn)練集之外的動作和場景(例如,強行進(jìn)入人行道)。這證明了它理解和推斷訓(xùn)練集中沒有的駕駛概念的能力。在現(xiàn)實世界中,由于這種駕駛行為的風(fēng)險性,很難獲得數(shù)據(jù)。駕駛場景生成允許模擬測試,豐富數(shù)據(jù)組成,增強復(fù)雜場景中的系統(tǒng)能力,并更好地評估現(xiàn)有駕駛模型。此外,GAIA-1生成連貫的動作,并有效地捕捉3D幾何結(jié)構(gòu)的視角影響,展示了其對上下文信息和物理規(guī)則的理解。
DriveDreamer也致力于駕駛場景生成,與GAIA-1不同之處在于它是在nuScenes數(shù)據(jù)集上訓(xùn)練的。它的模型輸入包括高清地圖和3D盒子等元素,可以更精確地控制駕駛場景的生成和更深入的理解,從而提高視頻生成質(zhì)量。此外,DriveDreamer可以生成未來的駕駛行為和相應(yīng)的預(yù)測場景,幫助決策。
ADriver-I采用當(dāng)前視頻幀和歷史視覺-動作對作為多模式大語言模型(MLLM)和視頻潛在擴(kuò)散模型(VDM)的輸入。MLLM以自回歸方式輸出控制信號,其用作VDM預(yù)測后續(xù)視頻輸出的提示。通過連續(xù)的預(yù)測周期,ADriver-I在預(yù)測世界中實現(xiàn)了無限驅(qū)動。
從大型語言模型的成功中汲取靈感,WorldDreamer將世界建模視為一種無監(jiān)督的視覺序列建模挑戰(zhàn)。它利用STPT將注意力集中在時空窗口內(nèi)的局部補丁上。這種關(guān)注促進(jìn)了視覺信號的動態(tài)學(xué)習(xí),并加速了訓(xùn)練過程的收斂。盡管World Dreamer是一款通用的視頻生成模型,但它在生成自動駕駛視頻方面表現(xiàn)出了非凡的性能。
除了視覺信息,駕駛場景還包括過多的關(guān)鍵物理數(shù)據(jù)。MUVO利用世界模型框架預(yù)測和生成駕駛場景,集成激光雷達(dá)點云和視覺輸入,預(yù)測未來駕駛場景的視頻、點云和3D占用網(wǎng)格。這種全面的方法大大提高了預(yù)測和產(chǎn)生結(jié)果的質(zhì)量。特別地,結(jié)果3D占用網(wǎng)格可以直接應(yīng)用于下游任務(wù)。更進(jìn)一步,OccWorld和Think2Drive直接利用3D占用信息作為系統(tǒng)輸入,預(yù)測周圍環(huán)境的演變,并規(guī)劃自動駕駛汽車的行動。
規(guī)劃和控制
除了場景生成,世界模型還有助于在駕駛環(huán)境中進(jìn)行學(xué)習(xí)、評估潛在的未來以及完善規(guī)劃和控制策略。例如,基于模型的模仿學(xué)習(xí)(MILE)采用基于模型的模擬學(xué)習(xí)方法,從離線數(shù)據(jù)集中聯(lián)合學(xué)習(xí)CARLA中的動力學(xué)模型和駕駛行為。MILE采用“廣義推理算法”對未來駕駛環(huán)境進(jìn)行理性和可視化的想象和預(yù)測,利用想象來補償缺失的感知信息。這種能力能夠規(guī)劃未來的行動,允許自動駕駛汽車在沒有高清地圖的情況下運行。在CARLA模擬器中未經(jīng)經(jīng)驗驗證的測試場景中,MILE顯著優(yōu)于最先進(jìn)的車型,將駕駛分?jǐn)?shù)從46提高到61(相比之下,專家數(shù)據(jù)分?jǐn)?shù)為88)。MILE的特點是長期和高度多樣化的未來預(yù)測。MILE使用解碼器對預(yù)測的未來狀態(tài)進(jìn)行解碼,展示了在各種場景下的穩(wěn)定駕駛。
SEM2在RSSM的基礎(chǔ)上引入了語義masked世界模型,以提高端到端自動駕駛的采樣效率和魯棒性。作者認(rèn)為,世界模型的潛在狀態(tài)包含了太多與任務(wù)無關(guān)的信息,對采樣效率和系統(tǒng)魯棒性產(chǎn)生了不利影響。此外,由于訓(xùn)練數(shù)據(jù)不平衡,世界模型難以處理意外情況。為了解決這些問題,引入了簽名過濾器來提取關(guān)鍵任務(wù)特征,并使用過濾后的特征重建語義掩碼。對于數(shù)據(jù)不平衡,使用采樣器來平衡數(shù)據(jù)分布。在CARLA中訓(xùn)練和測試后,SEM2的性能比DreamerV2有了顯著提高。
考慮到大多數(shù)自動駕駛汽車通常都有多個攝像頭,多視圖建模也是世界模型的一個關(guān)鍵方面。Drive WM是第一個多視圖世界模型,旨在增強端到端自動駕駛規(guī)劃的安全性。Drive WM通過多視圖和時間建模,聯(lián)合生成多個視圖的幀,然后從相鄰視圖預(yù)測中間視圖,顯著提高了多個視圖之間的一致性。此外,Drive WM引入了一個簡單的統(tǒng)一條件界面,靈活應(yīng)用圖像、動作、文本和其他條件,簡化了條件生成過程。Drive WM在具有六個視圖的nuScenes數(shù)據(jù)集上進(jìn)行了訓(xùn)練和驗證,通過對預(yù)測的候選軌跡進(jìn)行采樣并使用基于圖像的獎勵函數(shù)來選擇最佳軌跡。在nuScenes數(shù)據(jù)集上,使用FID和FVD作為標(biāo)準(zhǔn),Drive WM超過了所有其他當(dāng)代方法,表明預(yù)測未來有助于自動駕駛的規(guī)劃。此外,與GAIA-1一致,Drive WM在不可駕駛區(qū)域?qū)Ш降哪芰φ故玖耸澜缒P驮谔幚眍I(lǐng)域外案例方面的理解和潛力。此外,從Alberto Elfes的開創(chuàng)性工作中汲取靈感,UniWorld引入了一種創(chuàng)新方法,利用多幀點云融合作為生成4D占用標(biāo)簽的基本事實。該方法考慮了來自多攝像機(jī)系統(tǒng)的圖像中存在的時間-空間相關(guān)性。通過利用未標(biāo)記的圖像激光雷達(dá)對,UniWorld對世界模型進(jìn)行預(yù)訓(xùn)練,顯著增強了對環(huán)境動力學(xué)的理解。當(dāng)在nuScenes數(shù)據(jù)集上進(jìn)行測試時,與依賴單目預(yù)訓(xùn)練的方法相比,UniWorld在運動預(yù)測和語義場景完成等任務(wù)的IoU方面有了顯著改進(jìn)。
TrafficBots也是一種端到端的自動駕駛模型,它更加強調(diào)預(yù)測場景中個體代理的行為。TrafficBots以每個代理的目的地為條件,采用條件變分自動編碼器(CVAE)來學(xué)習(xí)每個代理的不同個性,從而從BEV的角度促進(jìn)行動預(yù)測。與其他方法相比,TrafficBots提供了更快的操作速度,并且可以擴(kuò)展以容納更多的代理。盡管TrafficBots的性能可能還無法與最先進(jìn)的開環(huán)策略相媲美,但它展示了閉環(huán)策略在行動預(yù)測方面的潛力。
挑戰(zhàn)和未來展望
世界模型在自動駕駛領(lǐng)域的進(jìn)步提供了一個創(chuàng)新的前沿,有可能重新定義車輛的機(jī)動性。然而,這一充滿希望的局面并非沒有挑戰(zhàn)。解決這些障礙和探索未來前景需要深入研究技術(shù)復(fù)雜性和更廣泛的社會影響。
技術(shù)和計算挑戰(zhàn)
1)長期可擴(kuò)展內(nèi)存集成:在自動駕駛領(lǐng)域,為世界模型注入反映人類認(rèn)知過程復(fù)雜性的長期可擴(kuò)展記憶仍然是一個艱巨的挑戰(zhàn)。這些模型的有效性與其建筑基礎(chǔ)有著內(nèi)在的聯(lián)系,而建筑基礎(chǔ)目前在處理長期任務(wù)時面臨著重大障礙。這些限制阻礙了模型長時間保留和有效訪問信息的能力,這是在自動駕駛中遇到的復(fù)雜動態(tài)環(huán)境中導(dǎo)航的關(guān)鍵能力。當(dāng)代模型正在努力解決梯度消失和災(zāi)難性遺忘等問題,這些問題嚴(yán)重限制了它們的長期記憶能力。盡管Transformer架構(gòu)在通過自注意力機(jī)制方便訪問歷史數(shù)據(jù)方面取得了進(jìn)步,但在處理長序列時,它們在可擴(kuò)展性和速度方面遇到了障礙。以TRANSDREAMER和S4WM等研究為例的創(chuàng)新方法探索了旨在克服這些障礙的替代神經(jīng)結(jié)構(gòu)。值得注意的是,S4WM在高達(dá)500步的序列上保持高質(zhì)量生成方面表現(xiàn)出了卓越的性能,顯著超過了傳統(tǒng)架構(gòu)。然而,超過1000步后觀察到的性能下降加劇了人工記憶系統(tǒng)和生物記憶系統(tǒng)能力之間的現(xiàn)有差距。
為了彌補這一差距,未來的研究工作可能會轉(zhuǎn)向多管齊下的策略,包括增加網(wǎng)絡(luò)容量、集成復(fù)雜的外部記憶模塊以及探索迭代學(xué)習(xí)策略。這些努力不僅旨在擴(kuò)展世界模型中記憶的時間范圍,還旨在增強它們駕馭自動駕駛固有的復(fù)雜決策過程的能力。通過促進(jìn)計算效率和內(nèi)存可擴(kuò)展性之間更深層次的協(xié)同作用,這些進(jìn)步可以顯著推動自動駕駛汽車的能力,使其能夠以前所未有的精度和可靠性適應(yīng)和響應(yīng)現(xiàn)實世界駕駛環(huán)境不斷變化的動態(tài)。
2)仿真到現(xiàn)實世界的泛化:仿真訓(xùn)練環(huán)境和現(xiàn)實世界條件的多方面性質(zhì)之間的差異是自動駕駛技術(shù)發(fā)展的關(guān)鍵瓶頸。目前的模擬平臺雖然先進(jìn),但在完美反映現(xiàn)實世界場景的不可預(yù)測性和可變性方面還不夠。這種不一致表現(xiàn)為物理特性、傳感器噪聲和不可預(yù)見事件的發(fā)生方面的差異,嚴(yán)重破壞了僅在模擬環(huán)境中訓(xùn)練的世界模型的適用性。
開發(fā)能夠從模擬到真實世界駕駛場景無縫概括的世界模型是至關(guān)重要的。這不僅需要改進(jìn)模擬技術(shù),以更準(zhǔn)確地捕捉真實世界環(huán)境的微妙之處和不可預(yù)測性,還需要開發(fā)對模擬數(shù)據(jù)和真實世界數(shù)據(jù)之間的差異具有內(nèi)在魯棒性的模型。提高模擬的保真度,采用領(lǐng)域自適應(yīng)技術(shù),并利用真實世界的數(shù)據(jù)進(jìn)行連續(xù)的模型細(xì)化,是實現(xiàn)更有效泛化的潛在途徑。此外,先進(jìn)的感官融合技術(shù)的集成和對新學(xué)習(xí)范式的探索,如元學(xué)習(xí)和來自不同數(shù)據(jù)源的強化學(xué)習(xí),可以進(jìn)一步使世界模型能夠動態(tài)適應(yīng)現(xiàn)實世界駕駛的復(fù)雜性。這些進(jìn)步對于實現(xiàn)真正的自動駕駛系統(tǒng)至關(guān)重要,該系統(tǒng)能夠以敏捷、準(zhǔn)確和安全的方式應(yīng)對現(xiàn)實世界環(huán)境帶來的無數(shù)挑戰(zhàn)。
道德和安全挑戰(zhàn)
1)決策問責(zé)制:確保車輛自主決策框架內(nèi)的問責(zé)制是最重要的倫理問題,因此必須開發(fā)具有無與倫比透明度的系統(tǒng)。引導(dǎo)自動駕駛汽車的算法固有的復(fù)雜性需要一種機(jī)制,該機(jī)制不僅有助于關(guān)鍵和常規(guī)場景中的決策,而且使這些系統(tǒng)能夠闡明其決策的基本原理。這種透明度對于在最終用戶、監(jiān)管機(jī)構(gòu)和廣大公眾之間建立和保持信任至關(guān)重要。
為了實現(xiàn)這一點,迫切需要將可解釋的人工智能(XAI)原理直接集成到世界模型的開發(fā)中。XAI旨在使人工智能決策更容易被人類理解,為自動駕駛汽車所采取的行動提供清晰易懂的解釋。這不僅涉及對決策過程的闡述,還涉及對影響這些決策的倫理、邏輯和實踐考慮的全面描述。在自動駕駛系統(tǒng)中實施XAI需要一種多學(xué)科的方法,利用人工智能開發(fā)、道德、法律標(biāo)準(zhǔn)和用戶體驗設(shè)計的專業(yè)知識。這種合作努力對于確保自動駕駛汽車能夠參與決策過程至關(guān)重要,這些決策過程不僅在技術(shù)上是合理的,而且在道德上是可辯護(hù)的和社會可接受的。
2)隱私和數(shù)據(jù)完整性:自動駕駛技術(shù)依賴于廣泛的數(shù)據(jù)集進(jìn)行操作和持續(xù)改進(jìn),這引起了人們對隱私和數(shù)據(jù)安全的高度關(guān)注。保護(hù)個人信息不受未經(jīng)授權(quán)的訪問和侵犯是一個至關(guān)重要的優(yōu)先事項,需要一個強有力的數(shù)據(jù)道德處理和保護(hù)框架。
解決這些問題涉及一個多方面的戰(zhàn)略,該戰(zhàn)略超越了對現(xiàn)有隱私法規(guī)的遵守,如歐洲的《通用數(shù)據(jù)保護(hù)條例》(GDPR)。它需要建立嚴(yán)格的數(shù)據(jù)治理政策,規(guī)定數(shù)據(jù)的收集、處理、存儲和共享。這些政策的設(shè)計應(yīng)盡量減少數(shù)據(jù)暴露,并確保數(shù)據(jù)最小化原則,即只處理特定合法目的所需的數(shù)據(jù)。此外,部署先進(jìn)的網(wǎng)絡(luò)安全措施對于保護(hù)數(shù)據(jù)的完整性和機(jī)密性至關(guān)重要。這包括利用加密技術(shù)、安全數(shù)據(jù)存儲解決方案和定期安全審計來識別和緩解潛在的漏洞。此外,提高用戶對其數(shù)據(jù)的收集、使用和保護(hù)方式的透明度至關(guān)重要。這可以通過明確、可訪問的隱私政策和機(jī)制來實現(xiàn),這些政策和機(jī)制允許用戶控制其個人信息,包括數(shù)據(jù)訪問、更正和刪除選項。
未來展望
1)連接人類直覺和人工智能精度一個開創(chuàng)性的視角是世界模型朝著促進(jìn)自動駕駛汽車內(nèi)認(rèn)知協(xié)同駕駛框架的方向發(fā)展。與僅依賴預(yù)定義算法和傳感器輸入進(jìn)行決策的傳統(tǒng)自動駕駛系統(tǒng)不同,認(rèn)知協(xié)同駕駛旨在將人類駕駛員細(xì)致入微、直觀的決策能力與人工智能的準(zhǔn)確性和可靠性相結(jié)合。通過利用先進(jìn)的世界模型,車輛可以獲得前所未有的環(huán)境意識和預(yù)測能力,反映人類的認(rèn)知過程,如預(yù)期、直覺和駕馭復(fù)雜社會技術(shù)環(huán)境的能力。
這種集成使自動駕駛汽車不僅能對眼前的物理世界做出反應(yīng),還能理解和適應(yīng)駕駛的社會和心理層面——解釋手勢、預(yù)測人類行為,并做出反映對人類規(guī)范和期望的更深入理解的決策。例如,配備認(rèn)知協(xié)同駕駛功能的世界模型可以準(zhǔn)確預(yù)測城市環(huán)境中的行人運動,在四向停車處導(dǎo)航社會駕駛慣例,或根據(jù)乘客的舒適度和反饋調(diào)整駕駛風(fēng)格。
2)車輛與城市生態(tài)系統(tǒng)的協(xié)調(diào)另一個富有遠(yuǎn)見的視角涉及世界模型在將自動駕駛汽車轉(zhuǎn)變?yōu)樯鷳B(tài)工程代理人方面的作用,通過有助于環(huán)境可持續(xù)性的適應(yīng)性、響應(yīng)性行為與城市生態(tài)系統(tǒng)協(xié)調(diào)。世界模型憑借其對復(fù)雜系統(tǒng)和動力學(xué)的深刻理解,可以使自動駕駛汽車優(yōu)化路線和駕駛模式,不僅提高效率和安全性,還可以減少排放、減少擁堵和促進(jìn)節(jié)能等對環(huán)境的影響。
設(shè)想一種場景,即世界模型使自動駕駛汽車車隊能夠根據(jù)實時環(huán)境條件、交通流量和城市基礎(chǔ)設(shè)施狀況動態(tài)調(diào)整其運營。這些車輛可以協(xié)同改變路線,以平衡整個城市的交通負(fù)荷,減少擁堵和城市熱島效應(yīng)。他們可以優(yōu)先考慮優(yōu)化燃油效率和減少排放的路線和速度,甚至可以與智能城市基礎(chǔ)設(shè)施對接,通過車輛到電網(wǎng)技術(shù)支持能源電網(wǎng)平衡。
結(jié)論
總之,這項調(diào)查深入研究了世界模型在自動駕駛領(lǐng)域的變革潛力,強調(diào)了它們通過增強預(yù)測、模擬和決策能力在推進(jìn)車輛自主性方面的關(guān)鍵作用。盡管取得了重大進(jìn)展,但長期內(nèi)存集成、模擬到現(xiàn)實世界的泛化和道德考慮等挑戰(zhàn)突顯了在現(xiàn)實世界應(yīng)用程序中部署這些模型的復(fù)雜性。應(yīng)對這些挑戰(zhàn)需要一種多學(xué)科的方法,將人工智能研究的進(jìn)步與倫理框架和創(chuàng)新的計算解決方案相結(jié)合。展望未來,世界模型的發(fā)展不僅有望增強自動駕駛技術(shù),還將重新定義我們與自動化系統(tǒng)的互動,這突出了跨領(lǐng)域持續(xù)研究和合作的必要性。當(dāng)我們站在這一技術(shù)前沿的風(fēng)口浪尖上時,我們必須以勤奮和遠(yuǎn)見應(yīng)對道德影響和社會影響,確保自動駕駛技術(shù)的發(fā)展與更廣泛的社會價值觀和安全標(biāo)準(zhǔn)保持一致。
參考
[1] World Models for Autonomous Driving: An Initial Survey
原文鏈接:https://mp.weixin.qq.com/s/Mvmd-4GMG_loGnFcyqWTNA