次元突破!OccSora:深刻演化自動駕駛4D Occ世界(北航&清華)
本文經自動駕駛之心公眾號授權轉載,轉載請聯(lián)系出處。
寫在前面&筆者的個人理解
文章提出了一個基于擴散的4D占用生成模型OccSora來模擬自動駕駛世界模型的進展。該模型使用一個四維場景標記器來獲得四維占用輸入的時空表示,并實現長序列占用視頻的高質量重建。然后,學習時空表征的擴散轉換器,并根據軌跡提示生成4D占用。OccSora可以生成具有真實3D布局和時間一致性的16秒視頻,展示其對駕駛場景時空分布的理解能力。
開源鏈接:https://wzzheng.net/OccSora/
主要貢獻
傳統(tǒng)的自動駕駛模型依靠車輛自身的運動來模擬場景的發(fā)展,所以無法像人類那樣對場景感知和車輛運動有深刻的理解;世界模型的出現能夠更深層次地理解自動駕駛場景和車輛運動之間的綜合關系。然而現階段的大多數方法采用自回歸框架來模擬3D場景,這阻礙了該模型有效地生成長期視頻序列的能力。
所以如圖1所示,相較于先前的方法,該模型基于2D視頻生成模型Sora,提出了一個4D世界模型OccSora。其設計了一種基于擴散的世界模型來實現遵循物理規(guī)律的可控場景生成。具體來說,采用多維擴散技術傳遞準確時空四維信息,并以真實汽車軌跡為條件實現軌跡可控的場景生成,從而更深入地理解自動駕駛場景與車輛運動之間的關系。OccSora通過訓練和測試,可以生成符合物理邏輯的自動駕駛4D占用場景,實現基于不同軌跡的可控場景生成。提出的自動駕駛4D世界模型為理解自動駕駛和物理世界中的動態(tài)場景變化開辟了新的可能性。
圖1 現有方法的比較
具體方法
1、自動駕駛系統(tǒng)的世界模型
4D占用可以全方位的捕捉三維場景的結構、語義和時間信息,有效促進弱監(jiān)督或自監(jiān)督學習,可應用于視覺、激光雷達或多模態(tài)任務。基于此,該論文把世界模型X表示為4D占用R。圖2展示了OccSora的總體框架。
圖2 OccSora模型總體框架
2、4D占用場景標記器
圖3 4D占用場景標記器的結構
(1)類別嵌入和標記器
(2)3D視頻編碼器
(3)碼本和訓練目標
(4)3D視頻解碼器
3、基于擴散的世界模型
圖4 基于擴散的世界模型的框架
(1)token嵌入
(2)軌跡調節(jié)嵌入
(3)擴散transformer
4、實驗
OccSora作為自動駕駛領域的4D占用世界模型,可以在不需要任何3D邊界框、地圖或歷史信息輸入的情況下,更深入地理解自動駕駛場景與車輛軌跡之間的關系。它可以構建一個遵循物理定律的長時間序列世界模型。
(1)實現細節(jié)
(2)4D占用重建
壓縮和重建四維占用是學習圖像生成所需的潛在時空相關性和特征的必要條件。與傳統(tǒng)的視頻和圖像處理模型不同,OccSora的操作比單幀占用率高一個維度,比圖像高兩個維度。因此,實現有效的壓縮和準確的重建是至關重要的。圖5描繪了4D占用的真實情況和重建情況。
圖5 4D占用場景標記器重建的可視化
此外還對4D占用重建進行了定量分析,如表1所示。從表中可以看出,即使OccSora實現了比OccWorld高32倍的壓縮比,它仍然保持了原始OccWorld模型近50%的mIoU。這種統(tǒng)一的時間壓縮有效地捕獲了各種元素的動態(tài)變化,與漸進式自回歸方法相比,提高了長序列建模能力。
表1 4D占用重建的定量分析
(3)4D占用生成
在四維占用生成任務的基于擴散的世界模型中,使用OccSora模型生成的token,經過32幀的訓練,作為生成實驗的輸入。在圖6中展示了從10,000到1,200,000步的跨訓練迭代的可視化結果。這些視覺結果表明,隨著訓練迭代次數的增加,OccSora模型的精度不斷提高,顯示出連貫場景的生成。
圖6 精確場景的逐步生成可視化
同樣的將提出的OccSora模型與其他代模型進行了比較和定量評估。作為第一個用于自動駕駛的4D占用世界模型,僅將其與傳統(tǒng)的圖像生成、2D視頻生成和靜態(tài)3D占用場景生成方法進行了比較。如表2所示,OccSora模型在起始距離(FID)方面取得了不錯的性能,證明了所提出方法的有效性。
表2OccSora與其他模型在生成能力上的比較
軌跡視頻生成。OccSora能夠根據不同的輸入軌跡生成各種動態(tài)場景,從而學習自動駕駛中自我車輛軌跡與場景演化之間的關系。如圖7所示,將不同的車輛軌跡運動模式輸入到模型中,展示了直行、右轉和靜止的4D占用情況。此外進行了不同尺度的軌跡生成實驗,結果表明,靜止場景的FID得分最低,而彎曲場景的FID得分較高,這表明連續(xù)建模彎曲運動場景的復雜性和建模靜止場景的簡單性。
圖7 不同輸入軌跡下的4D占用生成
場景視頻生成。在合理的軌跡控制下,場景的多樣性至關重要。為了驗證在可控軌跡下生成場景的泛化性能,OccSora模型對三種軌跡下不同場景的4D占用場景重建進行了測試。在圖8中,左右兩部分分別展示了在同一軌跡下產生不同場景的能力。在重建的場景中,周圍的樹木和道路環(huán)境表現出隨機變化,但仍然保持了原始軌跡的邏輯,顯示了在生成與原始軌跡對應的場景及其在不同場景中的泛化方面保持魯棒性的能力。
圖8 在軌跡控制下生成多種連續(xù)場景
(4)消融實驗
標記器與嵌入分析。對提出的組件進行了消融實驗,包括不同的壓縮尺度、類標記器離散化的數量、時間步嵌入和車輛軌跡嵌入,如表3所示。當類標記器離散化的數量從8個減少到4個時,重構精度下降了大約18%。
表3 不同組件之間的消融實驗結果
在去除時間步長嵌入組件后,FID得分也有所下降。在沒有位置嵌入的情況下,生成的場景缺乏運動控制,并且受數據分布的影響幾乎呈線性運動模式。此外,在較低的壓縮比下,盡管重建性能優(yōu)于較高的壓縮比,但缺乏高維特征相關性會阻礙有效場景的生成。
生成步驟分析。去噪的總步數和去噪率會在一定程度上影響生成質量。如圖9所示,隨著去噪率的提高,生成的場景逐漸清晰。從表4的定量結果可以看出,增加去噪步驟總數可以在一定程度上提高生成精度。然而,token大小和信道數量對生成質量的影響要比對去噪步驟總數的影響大得多。
表4 不同尺度對去噪步驟和去噪率的定量分析。圖9 不同軌跡或去噪步驟下去噪比的影響
5、結論與限制
在本文中,介紹了一個生成4D占用的框架,以模擬自動駕駛中的3D世界發(fā)展。使用4D場景標記器,獲得了輸入的密集表示,并實現了長序列占用視頻的高質量重建。然后,學習時空表征的擴散轉換器,并在軌跡提示的條件下生成4D占用。通過在nuScenes數據集上的實驗,證明了場景進化的準確性。未來,將研究更精細的4D占用世界模型,探索閉環(huán)設置下端到端自動駕駛的可能性。
局限性。4D占用世界模型的優(yōu)勢在于建立了對場景和運動之間關系的理解。然而,由于體素數據粒度的限制,無法構建更精細的4D場景。生成結果還顯示運動對象的細節(jié)不一致,可能是由于訓練數據的小尺寸。