自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

直接暴漲十個(gè)點(diǎn)!地平線提出DOME:擴(kuò)散和Occ雙管齊下,打造超真實(shí)世界模型!

人工智能 新聞
今天為大家分享地平線和中科院軟件研究所最新的世界模型工作—DOME!擴(kuò)散和OCC雙管齊下,打造世界模型。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

寫在前面 && 筆者理解

在任何一組東西中,最重要的只占其中一小部分,約20%,其余80%盡管是多數(shù),卻是次要的,這就是著名的“二八定律”。而自動駕駛發(fā)展至今,解決剩余20%的“重要的”長尾問題和極端案例一直是一件比較棘手的事情。即使是最先進(jìn)的SOTA和最廣泛的數(shù)據(jù)收集工作也難以解決。而解決這些挑戰(zhàn)的一個(gè)有希望的方法在于世界模型。世界模型結(jié)合了歷史上下文和其它智能體的行動來預(yù)測環(huán)境觀察的未來演變。這允許自動駕駛模型更深入地預(yù)測未來,改進(jìn)行動可行性的評估。

世界模型可以分為幾種類型:包括基于2D視頻的模型和基于3D表示的模型,比如利用LiDAR和占用框架的模型。前者基于視頻的世界模型在維持跨視圖和跨時(shí)間一致性方面會面臨一些挑戰(zhàn),從而阻礙了它們在現(xiàn)實(shí)世界場景中的應(yīng)用。而基于占用的世界模型避免了這個(gè)問題。這些模型以歷史占用序列作為輸入,并預(yù)測未來的占用觀察,用原始的3D表示確保了內(nèi)在的3D一致性。另外,占用標(biāo)注相對容易獲得,因?yàn)樗鼈兛梢杂行У貜南∈璧腖iDAR標(biāo)注中學(xué)習(xí),或者可能通過時(shí)間幀的自監(jiān)督學(xué)習(xí)獲得?;谡加玫哪P鸵彩悄B(tài)不確定的,表明它們可以從單目或環(huán)視相機(jī)生成,或者從LiDAR傳感器生成。

現(xiàn)有的基于占用的世界模型可以分為兩種類型:基于自回歸的和基于擴(kuò)散的:

  1. 基于自回歸的方法以自回歸的方式使用離散標(biāo)記預(yù)測未來的占用。然而,由于這些方法依賴于離散標(biāo)記器,量化過程導(dǎo)致信息丟失,限制了預(yù)測高保真占用的能力。此外,自回歸方法難以生成真實(shí)的長時(shí)間占用序列。
  2. 基于擴(kuò)散的方法將空間和時(shí)間信息展平為一維的標(biāo)記序列,而不是單獨(dú)處理它們,導(dǎo)致在有效捕獲空間時(shí)間信息方面存在困難。因此,將歷史占用信息整合到模型中變得困難,因?yàn)榭臻g和時(shí)間數(shù)據(jù)被結(jié)合在一起。這種限制意味著模型可以生成輸出,但不能預(yù)測,限制了其在現(xiàn)實(shí)世界場景中的適用性。此外,作者發(fā)現(xiàn)大多數(shù)占用世界模型對細(xì)粒度控制的探索不足,導(dǎo)致過度擬合特定場景,限制了它們對下游任務(wù)的適用性。

為了解決上述問題,作者提出了一種預(yù)測未來占用幀的新方法,稱為DOME。具體來說,作者的方法包括兩個(gè)組件:Occ-VAE和DOME。為了克服離散標(biāo)記的限制,作者的Occ-VAE使用連續(xù)的潛在空間來壓縮占用數(shù)據(jù)。這允許有效的壓縮,同時(shí)保留高保真細(xì)節(jié)。作者世界模型展示了兩個(gè)關(guān)鍵特征:

  1. 高保真度和長時(shí)生成。作者采用時(shí)空擴(kuò)散變換器來預(yù)測未來的占用幀。通過利用上下文占用條件,作者將歷史占用信息作為輸入。時(shí)空架構(gòu)有效地捕獲了空間和時(shí)間信息,實(shí)現(xiàn)了精細(xì)細(xì)節(jié),并能夠生成長時(shí)預(yù)測(32秒)。
  2. 細(xì)粒度可控性。作者通過引入軌跡重采樣方法來解決預(yù)測中的精確控制挑戰(zhàn),這顯著提高了模型生成更精確和多樣化占用預(yù)測的能力。

圖片

相關(guān)工作

3D 占用預(yù)測

3D 占用預(yù)測任務(wù)涉及預(yù)測每個(gè)3D體素的占用狀態(tài)和語義標(biāo)簽。最近的方法專注于基于視覺的占用預(yù)測,使用圖像作為輸入。這些方法可以根據(jù)它們的特征增強(qiáng)分為三種主流類型:鳥瞰圖(BEV)、三視角圖(TPV)和基于體素的方法。

基于BEV的方法在BEV空間中學(xué)習(xí)特征,對遮擋不太敏感。它首先使用主干網(wǎng)絡(luò)提取2D圖像特征,應(yīng)用視點(diǎn)變換以獲得BEV特征,最后使用3D占用頭進(jìn)行預(yù)測。然而,由于其自上而下的投影,BEV方法難以傳達(dá)詳細(xì)的3D信息。為了解決這個(gè)限制,基于TPV的方法利用三個(gè)正交投影平面,增強(qiáng)了描述細(xì)粒度3D結(jié)構(gòu)的能力。這些方法同樣提取2D圖像特征,然后將它們提升到三個(gè)平面上,然后將投影的特征相加以形成3D空間表示。與這些基于投影的方法相對,基于體素的方法直接從原始3D空間學(xué)習(xí),有效地捕獲了全面的空間信息。這些方法從主干網(wǎng)絡(luò)提取2D圖像特征,并將它們轉(zhuǎn)換為3D表示,然后由3D占用頭處理以進(jìn)行占用預(yù)測。

自動駕駛世界模型

世界模型是智能體周圍環(huán)境的表示。給定智能體的行動和歷史觀察,它預(yù)測下一個(gè)觀察,幫助智能體對其環(huán)境有一個(gè)全面的了解。最近的方法旨在通過整合不同的模態(tài),如點(diǎn)云或3D占用,來擴(kuò)展自動駕駛世界模型?;贚iDAR的世界模型預(yù)測4D LiDAR點(diǎn)云。Copilot4D是一種使用VQVAE和離散擴(kuò)散來預(yù)測未來觀察的世界建模方法。它在幾個(gè)數(shù)據(jù)集上提高了50%以上的預(yù)測精度,展示了GPT類無監(jiān)督學(xué)習(xí)在機(jī)器人技術(shù)的潛力。另一種方法是基于占用的世界模型,它通過3D占用預(yù)測未來場景。OccWorld是一個(gè)用于自動駕駛的3D世界模型,它使用3D占用預(yù)測自我車輛的運(yùn)動和周圍場景的演變。OccSora是一個(gè)基于擴(kuò)散的模型,用于模擬自動駕駛中3D世界的演變。它使用4D場景標(biāo)記器和DiT世界模型進(jìn)行占用生成,輔助自動駕駛中的決策。

模型框架

作者介紹了DOME,一個(gè)基于擴(kuò)散的占用世界模型。作者的方法由兩個(gè)主要組件組成:Occ-VAE和DOME。為了使世界模型與軌跡條件對齊,作者提出了軌跡編碼器和軌跡重采樣技術(shù),專門設(shè)計(jì)用于增強(qiáng)模型的可控性。

圖片

Occ-VAE

Occ-VAE是作者模型的核心組件,它使用變分自編碼器(VAE)將占用數(shù)據(jù)壓縮到潛在空間,這對于提高表示的緊湊性和世界模型預(yù)測的效率至關(guān)重要。注意到離散標(biāo)記器通常無法保留占用幀的精細(xì)細(xì)節(jié),作者提出將密集的占用數(shù)據(jù)編碼到連續(xù)的潛在空間中,以更好地保留復(fù)雜的空間信息。如圖2所示的提出的架構(gòu),細(xì)節(jié)如下:

DOME:基于擴(kuò)散的占用世界模型

軌跡作為條件

圖片

圖片

軌跡重采樣:這個(gè)問題源于訓(xùn)練數(shù)據(jù)集中的不平衡和有限多樣性。例如,在nuScenes數(shù)據(jù)集中,訓(xùn)練集包含700個(gè)場景,但大多數(shù)涉及車輛直行(大約87%,見圖4(c)),突出了不平衡問題。此外,在同一場景中,車輛只通過一次,導(dǎo)致在相同場景下不同軌跡條件下缺乏多樣化的3D占用樣本。這導(dǎo)致模型過度擬合場景,僅根據(jù)上下文觀察學(xué)習(xí)基于真實(shí)特征的觀察。原始軌跡分布如圖4(a)所示。

作者的重采樣軌跡分布如圖4(b)所示。與圖4(a)相比,它填補(bǔ)了軌跡分布的空白,表明作者的方法增強(qiáng)了多樣性并減輕了不平衡。圖4(c)所示的駕駛方向直方圖進(jìn)一步支持了這種改進(jìn)。

總之,作者的軌跡重采樣方法既簡單又有效。據(jù)作者所知,作者是第一個(gè)探索世界模型預(yù)測的占用數(shù)據(jù)增強(qiáng)。這種方法具有很高的通用性,可以應(yīng)用于所有類型的占用數(shù)據(jù),包括機(jī)器標(biāo)注的、LiDAR收集的或自監(jiān)督的數(shù)據(jù)。它只需要姿態(tài)和占用數(shù)據(jù),而不需要LiDAR數(shù)據(jù)或3D邊界框。

世界模型的應(yīng)用

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)設(shè)置

作者在nuScenes數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),使用IoU(交并比)和mIoU(平均交并比)指標(biāo)來評估占用重建和4D占用預(yù)測。更高的IoU和mIoU值表明在壓縮過程中信息丟失較少,反映了更好的重建性能,并展示了對未來周圍環(huán)境更準(zhǔn)確的理解。

占用重建

盡可能壓縮的同時(shí)精確重建占用對于下游任務(wù)如預(yù)測和生成至關(guān)重要。在這里,作者將Occ-VAE與使用占用標(biāo)記器的現(xiàn)有方法進(jìn)行比較,并評估它們的重建精度。占用重建的定量結(jié)果如表1所示。作者在IoU和mIoU指標(biāo)上都實(shí)現(xiàn)了最先進(jìn)的重建性能,分別為83.1%的mIoU和77.3%的IoU。

圖片

4D占用預(yù)測

作者在各種設(shè)置下將其方法與現(xiàn)有的4D占用預(yù)測方法進(jìn)行比較。這些設(shè)置包括使用地面實(shí)況3D占用數(shù)據(jù)(-O)作為輸入,以及使用現(xiàn)成的3D占用預(yù)測器(-F)的預(yù)測結(jié)果作為輸入。按照Wei et al.(2024)的實(shí)驗(yàn)設(shè)置,作者使用FB-OCC作為占用提取器,利用來自相機(jī)輸入的預(yù)測。

定性結(jié)果如圖5所示。定量結(jié)果如表2所示,表明作者的DOME-O實(shí)現(xiàn)了最先進(jìn)的性能,mIoU為27.10%,IoU為36.36%。作者觀察到與現(xiàn)有方法相比,在短期(1秒)和長期(3秒)預(yù)測方面都有顯著改進(jìn),表明作者的模型有效地捕獲了場景隨時(shí)間的基本演變。DOME-F可以被認(rèn)為是一種端到端的基于視覺的4D占用預(yù)測方法,因?yàn)樗鼉H使用周圍的相機(jī)捕獲作為輸入。盡管任務(wù)具有挑戰(zhàn)性,作者的方法仍然實(shí)現(xiàn)了有競爭力的性能,進(jìn)一步證明了DOME具有很強(qiáng)的泛化能力。

圖片圖片

作者還展示了模型的長期生成能力,如圖6所示,以及在給定相同起始幀的情況下,通過軌跡條件進(jìn)行操作的能力,如圖7所示。此外,作者還在表4中將其方法的生成能力與現(xiàn)有的占用世界模型進(jìn)行了比較,作者的方法能夠生成的持續(xù)時(shí)間是OccWorld的兩倍,是OccSora的兩倍。

圖片圖片

消融研究

不同的軌跡條件:作者測試了軌跡條件的不同設(shè)置,結(jié)果如表3所示。Traj.表示是否使用姿態(tài)條件進(jìn)行預(yù)測,Res.表示是否使用作者的軌跡重采樣增強(qiáng),Yaw表示是否添加偏航角嵌入。即使不使用任何姿態(tài)條件,作者發(fā)現(xiàn)其模型優(yōu)于OccWorld。軌跡信息通過為模型提供場景變化的明確方向而不是要求它從多種可能性中推斷出來,顯著改善了預(yù)測。偏航角嵌入在IoU方面提供了輕微的改進(jìn)。

圖片

上下文幀的數(shù)量:作者發(fā)現(xiàn)在預(yù)測過程中提供更多的上下文幀可以帶來更好的預(yù)測(見表5),因?yàn)轭~外的幀為模型提供了關(guān)于其他車輛和場景的運(yùn)動和變化的更明確信息。然而,作者也觀察到增加幀的數(shù)量不如使用軌跡信息高效,因?yàn)槟P捅仨殞?dǎo)航模糊的幀歷史來預(yù)測未來的運(yùn)動。對于基于智能體確定的運(yùn)動進(jìn)行預(yù)測的世界模型來說,這種歧義是不必要的。

結(jié)論和展望

作者提出了一個(gè)基于擴(kuò)散的世界模型DOME,它根據(jù)歷史數(shù)據(jù)預(yù)測未來的占用幀。它整合了帶有軌跡編碼器和重采樣技術(shù)的Occ-VAE,以增強(qiáng)可控性。DOME展示了高保真度生成,有效地預(yù)測了占用空間中未來場景的變化,并且可以生成比以前方法長兩倍的占用序列。這種方法在自動駕駛的端到端規(guī)劃中具有應(yīng)用前景。不過作者發(fā)現(xiàn)訓(xùn)練作者的模型仍然需要大量的計(jì)算資源。在未來,作者將探索更輕量級和計(jì)算效率高的方法,或者采用微調(diào)范式以減少資源需求。

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2016-09-21 15:15:00

APICloud

2015-09-18 13:19:39

VMware容器技術(shù)

2012-01-04 16:01:28

2024-11-20 10:00:00

2010-11-11 11:54:52

IT管理運(yùn)維管理北塔

2010-01-28 15:05:50

互聯(lián)網(wǎng)

2014-05-16 11:13:22

2015-09-29 15:56:33

2013-05-29 09:47:54

2010-01-21 17:05:21

互聯(lián)網(wǎng)

2011-06-09 10:54:51

2012-03-01 11:45:13

梭子魚云端IT

2010-04-21 18:33:35

2010-02-25 14:27:59

Windows CE

2025-01-02 09:12:34

2014-08-08 13:54:32

QQ瀏覽器

2010-09-08 16:19:24

諾西LTE

2022-07-20 13:48:58

蘋果裁員減緩招聘

2025-03-24 09:50:00

大模型自動駕駛AI

2015-10-08 15:39:01

IT分銷商互聯(lián)網(wǎng)+
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號