閉環(huán)仿真殺器!DrivingSphere:理想提出直接構(gòu)建高保真4D世界
寫在前面&筆者的個(gè)人理解
近年來,端到端自動駕駛算法取得了重大進(jìn)展,準(zhǔn)確評估這些模型是一項(xiàng)非常緊迫的任務(wù)。為了安全、負(fù)責(zé)任地進(jìn)行評估,必須有一個(gè)精確的模擬環(huán)境,準(zhǔn)確反映現(xiàn)實(shí)世界的駕駛條件。這個(gè)要求通常包括兩個(gè)方面:一是高保真?zhèn)鞲袛?shù)據(jù)的生成,二是閉環(huán)反饋機(jī)制的實(shí)現(xiàn)。
當(dāng)前最常使用的評估方法是開環(huán)仿真方法。雖然這些基準(zhǔn)測試提供了真實(shí)的駕駛數(shù)據(jù),但它們的分布相對固定,且缺乏多樣性,限制了它們評估自動駕駛算法的泛化能力??偠灾?,盡管具有高保真?zhèn)鞲袛?shù)據(jù),但這些開環(huán)評估解決方案無法提供評估自主系統(tǒng)如何響應(yīng)動態(tài)變化和決策所需的動態(tài)反饋。
另外一種即閉環(huán)仿真方法,其提供反饋驅(qū)動系統(tǒng),其中代理的行為會影響其他代理和環(huán)境,并受其影響。然而,由于缺乏處理視覺傳感器輸入的能力,限制了它們與基于視覺的端到端模型的相互作用?;谟螒蛞娴哪M器創(chuàng)造了可擴(kuò)展且物理上逼真的環(huán)境,但它們的輸出通常與現(xiàn)實(shí)世界的傳感器數(shù)據(jù)不同,限制了它們在驗(yàn)證基于實(shí)際輸入的算法方面的作用。
針對上述提到的相關(guān)問題,為了應(yīng)對這些挑戰(zhàn),我們提出了一種新穎的幾何感知閉環(huán)模擬框架,可捕捉二維視覺和三維幾何特性,同時(shí)與基于視覺的端到端驅(qū)動代理無縫集成,它利用幾何先驗(yàn)信息來生成逼真且可控的駕駛場景,稱之為DrivingSphere。與現(xiàn)有的相關(guān)仿真框架相比,我們提出的DrivingSphere。與現(xiàn)有的仿真算法框架相比,DrivingSphere 有三個(gè)顯著特點(diǎn)
- 豐富的仿真粒度:與過去僅對道路和汽車進(jìn)行建模的方法不同,我們的方法允許包括以前未建模的元素,例如建筑物、植被和其他環(huán)境結(jié)構(gòu)。雖然這些非交通元素并不直接參與交通流,但它們的存在會顯著影響駕駛模型的輸入,從而影響復(fù)雜駕駛場景中的決策過程。
- 物理和空間真實(shí)感:由于我們的模型明確地表示了 4D 空間中的場景和交通參與者,因此它能夠精確地描繪不同交通元素之間的物理相互作用和遮擋關(guān)系。這確保每個(gè)視點(diǎn)和位置自然地遵循深度和遮擋等物理原理,從而實(shí)現(xiàn)全球道路布局、交通參與者及其行為的結(jié)構(gòu)化協(xié)調(diào)。
- 高視覺一致性和保真度:我們的模型更加努力地將場景中每個(gè)交通參與者的外觀和唯一 ID 關(guān)聯(lián)起來,從而跨幀和視圖提供穩(wěn)定且高保真的時(shí)間和空間一致性。
下圖是我們的算法模型和開環(huán)與閉環(huán)仿真的整體框架進(jìn)行對比
論文鏈接:https://arxiv.org/pdf/2411.11252
算法模型網(wǎng)絡(luò)結(jié)構(gòu)&技術(shù)細(xì)節(jié)梳理
在詳細(xì)介紹本文提出的DrivingSphere算法框架之前,下圖展示了DrivingSphere的整體網(wǎng)絡(luò)結(jié)構(gòu)圖。
DrivingSphere 是一個(gè)生成閉環(huán)模擬框架,它將基于占用的 4D 世界建模與先進(jìn)的視頻渲染技術(shù)相結(jié)合,提供高保真視覺輸出,增強(qiáng)自動駕駛場景中的仿真真實(shí)感和代理與環(huán)境的相互作用。具體來說,DrivingSphere 從動態(tài)環(huán)境合成開始,從地圖草圖生成靜態(tài)背景,從參與者庫中選擇交通參與者,并更新參與者位置,以構(gòu)成具有占用格式的 4D 駕駛環(huán)境。接下來,視覺場景合成調(diào)節(jié)自車周圍的占用數(shù)據(jù),準(zhǔn)確捕捉遮擋關(guān)系和細(xì)粒度語義信息,以生成高保真多視圖視頻。最后,閉環(huán)反饋機(jī)制實(shí)現(xiàn)動態(tài)、響應(yīng)調(diào)整,其中自主代理不斷接收更新的視覺數(shù)據(jù)并生成修改模擬環(huán)境的控制信號,為算法測試和改進(jìn)提供全面的平臺。
Dynamic Environment Composition
以前的駕駛模擬方法經(jīng)常忽略建筑物、障礙物和植被等靜態(tài)和多樣化元素。雖然這些元素不是直接的交通參與者,但它們是自動駕駛系統(tǒng)感知輸入的一部分,影響最終的駕駛決策。例如,建筑物等靜態(tài)物體可能會阻擋傳感器的視線,導(dǎo)致其他車輛或行人的遮擋。障礙物或植被會給自動駕駛系統(tǒng)帶來傳感器偽影或誤報(bào)。這兩種情況都可能導(dǎo)致錯(cuò)誤的決策,例如不必要的剎車或車道變換。為了解決這個(gè)問題,我們提出了一種動態(tài)環(huán)境組合來構(gòu)建一個(gè)配備復(fù)雜數(shù)字資產(chǎn)的綜合自動駕駛駕駛世界。
靜態(tài)場景生成:一種生成靜態(tài)3D場景的直接方法是直接使用現(xiàn)有數(shù)據(jù)集中的真值占用數(shù)據(jù),例如 nuScenes中的波士頓地區(qū)。然而,這種方法僅限于數(shù)據(jù)收集期間捕獲的特定區(qū)域,限制了其對其他城市地區(qū)的適用性。為了解決這一限制,我們提出了一個(gè)占用擴(kuò)散模型 OccDreamer,該模型以 BEV 地圖和文本描述為條件,能夠?yàn)槿魏嗡璧某鞘袇^(qū)域生成靜態(tài)場景。OccDreamer 的框架集成了以下組件,如下圖所示。
獲得潛在表示后,我們使用占用 VAE 解碼器對其進(jìn)行解碼,得到擴(kuò)展區(qū)域,然后通過合并操作將兩個(gè)區(qū)域組合成更大的場景
動態(tài)參與者選擇:為了補(bǔ)充靜態(tài)場景,我們在 4D 駕駛世界中填充了動態(tài)參與者,從而創(chuàng)建了逼真的交通流。我們構(gòu)建了一個(gè)參與者庫,根據(jù)與用戶通過 CLIP 提供的描述的語義相似性來選擇參與者,如果未指定,則從相關(guān)類別中隨機(jī)抽樣,以確保上下文多樣性。這種靈活的選擇過程允許在 4D 駕駛世界中動態(tài)地集成相關(guān)和多樣化的參與者,支持現(xiàn)實(shí)和適應(yīng)性強(qiáng)的交通模擬。
4D 世界構(gòu)成:通過計(jì)算靜態(tài)背景、動態(tài)前景參與者及其位置,我們將它們整合到綜合 4D 駕駛世界中。任意時(shí)間 t 的世界狀態(tài)由以下公式表示:
Visual Scene Synthesis
先前的生成模型傾向于采用 2D 視覺條件,無法準(zhǔn)確捕捉現(xiàn)實(shí)世界駕駛場景中固有的幾何和語義復(fù)雜性。因此,我們的視覺場景合成采用了 VideoDreamer,將上一步構(gòu)建的占用驅(qū)動的 4D 駕駛世界轉(zhuǎn)換為高保真視覺結(jié)果。整體框架如下圖所示。
具體來說,我們引入了一種雙路徑條件編碼策略,該策略專注于將占用數(shù)據(jù)編碼為其主要條件。我們通過開發(fā)一種 ID 感知的參與者編碼方法,進(jìn)一步增強(qiáng)了視圖和幀之間外觀的一致性。最后,我們集成了 OpenSora 的時(shí)空擴(kuò)散變換器 (ST-DiT) 作為基礎(chǔ)技術(shù),以確保視覺一致性并生成無偽影的幀。
每一個(gè)參與者的embedding可以按照如下的公式進(jìn)行定義
ControlNet-DiT:為了增強(qiáng)生成視頻的視覺保真度和時(shí)間一致性,我們將 STDiT集成為我們的去噪器,利用堆疊有視圖感知空間自注意力 (VSSA)、時(shí)間自注意力、交叉注意力和 FFN 的 ST-DiT 塊。這種方法可確保對空間和時(shí)間連貫性的細(xì)粒度控制,從而生成無偽影的幀,滿足自動駕駛模擬的高保真度要求。
Agent Interplay and Closed-Loop Simulation
我們實(shí)現(xiàn)了 DrivingSphere 模擬環(huán)境中自動駕駛代理的無縫協(xié)調(diào),將代理分為兩種主要類型:自車代理和環(huán)境代理。
自車代理:自車代理代表正在評估的自動駕駛系統(tǒng)。它由端到端模型驅(qū)動,接收視覺輸入幀并每次輸出預(yù)測的控制信號
環(huán)境代理:環(huán)境代理負(fù)責(zé)控制模擬世界中所有其他參與者的行為和動作。為了實(shí)現(xiàn)真實(shí)的信息交換,我們使用支持多代理模擬的流量引擎。環(huán)境代理從模擬狀態(tài)接收輸入并輸出控制信號,指示環(huán)境中參與者的移動和相互作用。整個(gè)過程可以描述如下
實(shí)驗(yàn)結(jié)果&評價(jià)指標(biāo)
我們首先根據(jù)真實(shí)的 nuScenes 數(shù)據(jù)評估 OccDreamer 中基于體素的場景和 VideoDreamer 中的視頻序列的保真度,以評估領(lǐng)域差距。
我們進(jìn)行定量和定性分析,以評估 OccDreamer 生成的占用數(shù)據(jù)的保真度。我們的方法在定量上優(yōu)于現(xiàn)有方法,如下表所示。
下圖更加直觀的展現(xiàn)了我們的方法在保持連貫性和保真度方面表現(xiàn)出了顯著的優(yōu)越性,遠(yuǎn)遠(yuǎn)優(yōu)于其他方法。這一成功主要?dú)w功于幾何感知占用編碼和實(shí)例編碼,它們確保了外觀一致性,凸顯了 VideoDreamer 在創(chuàng)建視覺一致、詳細(xì)的駕駛環(huán)境以捕捉真實(shí)場景動態(tài)方面的穩(wěn)健性。
開環(huán)實(shí)驗(yàn)結(jié)果
在開環(huán)設(shè)置中,自動駕駛代理被動接收環(huán)境輸入而不影響模擬動態(tài),我們評估了 UniAD 在 DrivingSphere 和其他仿真器上的性能,如下表所示。
相關(guān)的實(shí)驗(yàn)結(jié)果展示了自動駕駛代理在 DrivingSphere 上取得的優(yōu)異 PDMS分?jǐn)?shù),表明其更高的視覺保真度減少了可能誤導(dǎo)代理決策的感知不準(zhǔn)確性。這一改進(jìn)凸顯了 DrivingSphere 適用于在緊密模擬真實(shí)世界條件的環(huán)境中測試自動駕駛系統(tǒng)。
閉環(huán)實(shí)驗(yàn)結(jié)果
在閉環(huán)評估中,自動駕駛代理接收視覺輸入和輸出控制信號,從而以交互方式塑造模擬。此評估設(shè)置涉及 100 條預(yù)定義軌跡,用于在受控但多樣的場景中進(jìn)行測試。相關(guān)實(shí)驗(yàn)結(jié)果如下表所示,UniAD的路線完成度 (RC) 得分相對較低,平均每條路線的完成度僅為 11.7%。與 DriveArena相比,我們的模擬始終能獲得更好的性能指標(biāo),并且還表現(xiàn)出卓越的視覺保真度。
結(jié)論
在本文中,我們提出了DrivingSphere,一個(gè)生成式閉環(huán)模擬框架,它彌補(bǔ)了傳統(tǒng)閉環(huán)模擬和開環(huán)生成模型之間的差距。通過先進(jìn)的基于占用的建模和可控的生成機(jī)制,DrivingSphere 為自動駕駛創(chuàng)建了逼真的高保真模擬。我們的實(shí)驗(yàn)展示了卓越的視覺質(zhì)量、時(shí)間一致性以及在動態(tài)環(huán)境中有效測試自動駕駛算法的能力。