自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

直接干到未來!浙大&華為Drive-OccWorld:且看世界模型如何拿下端到端!

人工智能 智能汽車
今天為大家分享浙大&華為最新的工作Drive-OccWorld!基于Occ世界模型的端到端自動駕駛,直接干到未來!

本文經(jīng)自動駕駛之心公眾號授權轉載,轉載請聯(lián)系出處。

寫在前面 & 筆者的個人理解

世界模型基于各種自車行為預測潛在的未來狀態(tài)。它們嵌入了關于駕駛環(huán)境的廣泛知識,促進了安全和可擴展的自動駕駛。大多數(shù)現(xiàn)有方法主要關注數(shù)據(jù)生成或世界模型的預訓練范式。與上述先前的工作不同,我們提出了Drive-OccWorld,它將以視覺為中心的4D預測世界模型應用于自動駕駛的端到端規(guī)劃。具體來說,我們首先在內存模塊中引入語義和運動條件規(guī)范化,該模塊從歷史BEV嵌入中積累語義和動態(tài)信息。然后將這些BEV特征傳輸?shù)绞澜缃獯a器,以進行未來時刻的OCC和flow預測,同時考慮幾何和時空建模。此外我們在世界模型中注入靈活的動作條件,如速度、轉向角、軌跡和命令,以實現(xiàn)可控發(fā)電,并促進更廣泛的下游應用。此外,我們探索將4D世界模型的生成能力與端到端規(guī)劃相結合,從而能夠使用基于職業(yè)的成本函數(shù)對未來狀態(tài)進行連續(xù)預測并選擇最佳軌跡。對nuScenes數(shù)據(jù)集的廣泛實驗表明,Drive-OccWorld可以生成合理可控的4D占用,為推動世界生成和端到端規(guī)劃開辟了新途徑。

總結來說,本文的主要貢獻如下:

  • 提出了Drive OccWorld,這是一個以視覺為中心的世界模型,旨在預測4D Occ和flow,我們探索了世界模型的未來預測能力與端到端規(guī)劃的整合。
  • 設計了一個簡單而高效的語義和運動條件歸一化模塊,用于語義增強和運動補償,提高了預測和規(guī)劃性能。
  • 提供了一個統(tǒng)一的調節(jié)接口,將靈活的動作條件集成到后代中,增強了Drive OccWorld的可控性,并促進了更廣泛的下游應用。

相關工作回顧

World Models for Autonomous Driving

基于未來狀態(tài)的生成模式,現(xiàn)有的自動駕駛世界模型主要可分為基于2D圖像的模型和基于3D體積的模型。2D Image-based Models:旨在使用參考圖像和其他條件(例如動作、HDMaps、3D框和文本提示)預測未來的駕駛視頻。GAIA-1使用自回歸Transformer作為世界模型,根據(jù)過去的圖像、文本和動作標記預測未來的圖像標記。其他方法,如DriveDreamer、ADriver-I、DrivengDiffusion,GenAD、Vista、Delphi和Drive-WM,使用潛在擴散模型(LDMs)生成圖像到輸出視頻。這些方法側重于設計模塊,將動作、BEV布局和其他先驗元素納入去噪過程,從而產(chǎn)生更連貫、更合理的未來視頻代。

3D Volume-based Models:以點云或占領的形式預測未來的狀態(tài)。Copilot4D使用VQVAE對LiDAR觀測進行標記,并通過離散擴散預測未來的點云。ViDAR實現(xiàn)了視覺點云預測任務,以預訓練視覺編碼器。UnO根據(jù)激光雷達數(shù)據(jù)預測了一個具有自我監(jiān)督功能的持續(xù)占領區(qū)。OccWorld和OccSora使用場景標記器壓縮職業(yè)輸入,并使用生成變換器預測未來的職業(yè)。UniWorld和DriveWorld提出通過4D職業(yè)重建進行4D預訓練。

在這項工作中通過輸入動作條件來實現(xiàn)動作可控生成,并將這種生成能力與端到端的安全駕駛規(guī)劃者相結合,從而研究了世界模型的潛在應用。

Drive-OccWorld方法詳解

準備工作

端到端的自動駕駛模型旨在直接基于傳感器輸入和自我行為來控制車輛(即規(guī)劃軌跡)。從形式上講,給定歷史傳感器觀測值和h個時間戳上的自我軌跡,端到端模型A預測了未來f個時間戳的理想自車軌跡:

圖片

駕駛世界模型W可以被視為一種生成模型,它將先前的觀察和自車行為作為輸入,生成環(huán)境的合理未來狀態(tài):

圖片

鑒于世界模型預測未來狀態(tài)的能力,我們建議將其與規(guī)劃器集成,以充分利用世界模型在端到端規(guī)劃中的能力。具體來說引入了一個名為Drive-OccWorld的自回歸框架,該框架由一個用于預測未來職業(yè)和流動狀態(tài)的生成世界模型W和一個基于職業(yè)的規(guī)劃器P組成,該規(guī)劃器P使用成本函數(shù)來基于評估未來預測來選擇最佳軌跡。從形式上講,我們將Drive OccWorld公式化如下,它自動回歸預測下一個時間戳的未來狀態(tài)和軌跡:

圖片

在接下來的部分中,我們將詳細介紹世界模型的結構,為W配備動作可控生成,并將其與P集成以進行端到端規(guī)劃。

4D Forecasting with World Model

圖片

如圖2所示,Drive-OccWorld包括三個組件:(1)歷史編碼器WE,它將歷史相機圖像作為輸入,提取多視圖幾何特征,并將其轉換為BEV嵌入。根據(jù)之前的工作,我們使用視覺BEV編碼器作為我們的歷史編碼器。(2)具有語義和運動條件歸一化的記憶隊列WM,它在潛在空間中采用簡單而高效的歸一化操作來聚合語義信息并補償動態(tài)運動,從而積累更具代表性的BEV特征。(3)世界解碼器WD,其通過具有歷史特征的時間建模來提取世界知識,以預測未來的語義職業(yè)和流動。靈活的動作條件可以注入WD,以實現(xiàn)可控生成。集成了基于occ的規(guī)劃器P,用于連續(xù)預測和規(guī)劃。

Semantic- and Motion-Conditional Normalization旨在通過結合語義和動態(tài)信息來增強歷史BEV嵌入。

如圖3所示,我們實現(xiàn)了一個輕量級的預測頭來生成體素語義概率:

圖片

在運動條件歸一化中,我們補償自車和其他代理在不同時間戳上的運動。具體來說,自車姿態(tài)變換矩陣(考慮了自我載體從時間戳-t到+t的移動)被展平并編碼到MLP處理的嵌入中,以生成仿射變換參數(shù)。

具體來說,WD將可學習的BEV查詢作為輸入,并執(zhí)行可變形的自注意、與歷史嵌入的時間交叉注意、與動作條件的條件交叉注意力以及前饋網(wǎng)絡來生成未來的BEV嵌入。條件層在BEV查詢和動作嵌入之間執(zhí)行交叉注意力,這將在下一節(jié)中說明,將動作可控信息注入預測過程。在獲得下一個BEV嵌入后,預測頭利用通道到高度操作來預測語義占用和3D backward centripetal flow。

Action-Controllable Generation

由于現(xiàn)實世界的固有復雜性,自我載體的運動狀態(tài)對于世界模型理解主體如何與其環(huán)境交互至關重要。因此,為了全面涵蓋環(huán)境,我們建議利用各種行動條件,使Drive OccWorld具有可控生成的能力。

Unified Conditioning Interface旨在將異質動作條件整合到連貫的嵌入中。我們首先將所需的動作編碼到傅里葉嵌入中(,通過額外的學習投影將其連接和融合,以與WD中條件交叉注意力層的維度對齊。該方法有效地將靈活的條件集成到可控的生成中。

End-to-End Planning with World Model

現(xiàn)有的世界模型主要關注數(shù)據(jù)生成或自動駕駛的相關范式。盡管最近的一項開創(chuàng)性工作Drive WM提出將生成的駕駛視頻與基于圖像的獎勵函數(shù)相結合來規(guī)劃軌跡,但環(huán)境的幾何3D特征并沒有完全用于運動規(guī)劃。如圖2所示,鑒于我們的世界模型提供的未來occ預測能力,我們引入了一個基于occ的規(guī)劃器,對代理和可駕駛區(qū)域的占用網(wǎng)格進行采樣,以確定安全約束。此外,未來的BEV嵌入用于學習考慮細粒度3D結構的成本量,為安全規(guī)劃提供更全面的環(huán)境信息。

基于占用的成本函數(shù)旨在確保自駕車的安全駕駛。它由多個成本因素組成:(1)代理安全成本限制了自車與其他代理(如行人和車輛)的碰撞。它懲罰與其他道路使用者占用的網(wǎng)格重疊的軌跡候選者。此外,在橫向或縱向距離方面與其他主體太近的軌跡也受到限制,以避免潛在的碰撞。(2)道路安全成本確保車輛在道路上行駛。它從占用預測中提取道路布局,懲罰超出可駕駛區(qū)域的軌跡。(3)學習量成本受ST-P3的啟發(fā)。它使用基于F bev+t的可學習頭部來生成成本量,從而對復雜的世界進行更全面的評估。

規(guī)劃損失Lplan由三個部分組成:引入的max-margin損失,用于約束軌跡候選的安全性;用于模仿學習的l2損失;以及確保規(guī)劃軌跡避開障礙物占用的網(wǎng)格的碰撞損失。

實驗結果

Main Results of 4D Occupancy Forecasting

Inflated Occupancy and Flow Forecasting。表1展示了nuScenes數(shù)據(jù)集上Inflated的占用率和流量預測的比較。盡管Drive OccWorld在當前時刻的結果mIoUc上表現(xiàn)稍差,但它在mIoUf上的表現(xiàn)比Cam4DOcc高出2.0%,表明其預測未來狀態(tài)的能力更強。

圖片

Fine-grained Occupancy Forecasting:表2展示了nuScenes占用率的細粒度占用預測比較。結果表明,與所有其他方法相比,Drive OccWorld實現(xiàn)了最佳性能。值得注意的是,對于當前和未來時間戳的一般可移動對象,Drive OccWorldP在mIoU上分別比Cam4DOcc高出1.6%和1.1%,這表明它能夠準確定位可移動對象以進行安全規(guī)劃。圖4提供了跨框架的職業(yè)預測和流量預測的定性結果。

圖片

可控性。在表3中,我們考察了各種作用條件下的可控性。與基線變量相比,注入任何動作條件都會產(chǎn)生收益。值得注意的是,低水平條件,即軌跡和速度,為未來的預測提供了更大的改進。相比之下,最高級別的命令條件改善了當前時間戳的mIoUc結果,但對未來的預測提供了有限的增強。可以這么理解,結合更多的低級條件,如軌跡,可以為自車提供更具體的行動,以了解其與世界的相互作用,從而有效地增強未來的預測。

圖片

有趣的是,如表4所示,與使用預測軌跡相比,使用地面真實軌跡作為行動條件可以獲得更好的規(guī)劃結果。相反,在入住率和流量預測質量方面觀察到相反的趨勢。表3中第2行和第7行的比較表明,使用預測軌跡而不是地面真實軌跡可以略微提高預測質量。表1和表2中的結果進一步支持了這一觀察結果,其中Drive OccWorldP的表現(xiàn)優(yōu)于Drive OccWorldA。我們認為,在使用預測軌跡時,對BEV特征施加的軌跡約束可能會導致占用率和流量質量的性能提高。這一發(fā)現(xiàn)表明,應用軌跡預測也可以提高感知性能,這與UniAD的結果一致。

圖片

此外,在圖5中,我們展示了Drive OccWorld基于特定自我運動模擬各種未來職業(yè)的能力,展示了Drive OccWorld作為神經(jīng)仿真為自動駕駛生成合理職業(yè)的潛力。

End-to-end Planning with Drive-OccWorld

表5展示了與現(xiàn)有端到端方法相比,L2錯誤和沖突率方面的規(guī)劃性能。我們提供ST-P3和UniAD不同評估方案設置下的結果。具體來說,NoAvg表示相應時間戳的結果,而TemAvg則通過0.5秒到相應時間戳之間的平均性能來計算指標。

如表5所示,與現(xiàn)有方法相比,Drive OccWorldP實現(xiàn)了更優(yōu)的規(guī)劃性能。例如,Drive OccWorldP?在以下方面分別獲得了33%、22%和9.7%的相對改善L2@1s、L2@2s和L2@3s與UniAD相比?。我們將這一改進歸因于世界模型積累世界知識和展望未來狀態(tài)的能力。它有效地增強了未來時間戳的規(guī)劃結果,并提高了端到端規(guī)劃的安全性和魯棒性。

最近的研究考察了將自車狀態(tài)納入規(guī)劃模塊的影響。根據(jù)這項研究,我們還對我們的自我狀態(tài)模型和之前的工作進行了公平的比較。我們的研究結果表明,Drive OccWorld在遙遠的未來時間戳仍然達到了最高的性能,證明了持續(xù)預測和規(guī)劃的有效性。

圖片

消融實驗結果如下:

圖片圖片

其他可視化結果:

圖片圖片圖片

結論

本文提出了Drive OccWorld,這是一個用于自動駕駛的4D Occ預測和規(guī)劃世界模型。靈活的動作條件可以注入到動作可控發(fā)電的世界模型中,促進更廣泛的下游應用。基于職業(yè)的規(guī)劃器與運動規(guī)劃的世界模型相結合,考慮了安全性和環(huán)境的3D結構。實驗表明,我們的方法在職業(yè)和流量預測方面表現(xiàn)出了顯著的性能。通過利用世界模型積累世界知識和展望未來狀態(tài)的能力來提高規(guī)劃結果,從而增強端到端規(guī)劃的安全性和穩(wěn)健性。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2023-12-01 10:37:20

自動駕駛3D

2024-03-15 09:37:26

語言模型駕駛

2024-07-09 10:24:13

2024-10-10 09:37:49

2025-01-16 10:11:58

2010-05-28 11:56:10

IPv6網(wǎng)絡

2022-09-02 10:20:44

網(wǎng)絡切片網(wǎng)絡5G

2025-02-14 10:56:58

2010-03-20 09:32:34

LTE試驗網(wǎng)端到端服務華為

2024-04-18 12:16:37

MetaAIOpenEQA

2022-09-21 11:48:40

端到端音視頻測試用戶體驗

2023-01-26 11:43:03

線程池CPUJava

2010-03-15 08:37:00

程序員35歲

2022-10-19 09:27:39

2024-04-12 09:31:34

端到端自動駕駛

2024-09-10 12:11:18

2014-06-25 10:43:43

華為

2024-09-20 09:53:11

2024-09-19 18:49:54

完全同態(tài)加密FHE機器學習

2010-01-20 16:12:16

專家答疑端到端加密保護數(shù)據(jù)
點贊
收藏

51CTO技術棧公眾號