自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

為端到端鋪平道路!OccWorld:面向自動(dòng)駕駛未來(lái)的3D占用世界模型新方案

人工智能 智能汽車(chē)
這里探索了一種在3D占用空間中學(xué)習(xí)世界模型OccWorld的新框架,同時(shí)預(yù)測(cè)自車(chē)的運(yùn)動(dòng)和周?chē)鷖cene的演變。

寫(xiě)在前面&個(gè)人理解

看到了一篇很不錯(cuò)的工作,這里和大家分享下!關(guān)于Occupancy+World Model,不得不說(shuō),它結(jié)合了當(dāng)下最火的兩個(gè)方向,值得一讀。3D場(chǎng)景如何演變對(duì)于自動(dòng)駕駛決策至關(guān)重要,現(xiàn)有的方法都是通過(guò)預(yù)測(cè)目標(biāo)框的移動(dòng)來(lái)實(shí)現(xiàn),而目標(biāo)框無(wú)法捕捉到更細(xì)粒度的場(chǎng)景信息。這里探索了一種在3D占用空間中學(xué)習(xí)世界模型OccWorld的新框架,同時(shí)預(yù)測(cè)自車(chē)的運(yùn)動(dòng)和周?chē)鷖cene的演變。對(duì)于場(chǎng)景理解任務(wù)來(lái)說(shuō),更建議學(xué)習(xí)基于3D占用而不是3D bounding box和分割maps的世界模型,原因有三:

1) 表征能力,3D占用可以描述場(chǎng)景的更細(xì)粒度的3D結(jié)構(gòu);

2) 效率,3D占用能夠更經(jīng)濟(jì)地獲得(例如從稀疏的LiDAR點(diǎn))

3) 多功能性,3D占用可以適應(yīng)視覺(jué)和激光雷達(dá)。

為了便于對(duì)世界進(jìn)化進(jìn)行建模,Occworld主在學(xué)習(xí)一種基于重建的3D占用場(chǎng)景標(biāo)記器,以獲得離散的場(chǎng)景標(biāo)記來(lái)描述周?chē)膱?chǎng)景!采用類(lèi)似GPT的時(shí)空生成transformer來(lái)生成后續(xù)場(chǎng)景和ego tokens,以解碼未來(lái)的占有率和ego軌跡。在nuScenes基準(zhǔn)上進(jìn)行的大量實(shí)驗(yàn)證明了OccWorld有效模擬駕駛場(chǎng)景演變的能力,OccWorld還可以在不使用實(shí)例和地圖監(jiān)督的情況下生成有競(jìng)爭(zhēng)力的規(guī)劃結(jié)果。

圖片

領(lǐng)域發(fā)展與現(xiàn)狀

近年來(lái),自動(dòng)駕駛已被廣泛探索,并在各種場(chǎng)景中顯示出不錯(cuò)的結(jié)果。雖然基于激光雷達(dá)的模型由于其對(duì)結(jié)構(gòu)信息的捕獲,通常在3D感知中表現(xiàn)出強(qiáng)大的性能和魯棒性,但更經(jīng)濟(jì)的以硬件為中心的解決方案已經(jīng)大大趕上了深度網(wǎng)絡(luò)感知能力的提高。預(yù)測(cè)未來(lái)場(chǎng)景演變對(duì)自動(dòng)駕駛汽車(chē)的安全性很重要,大多數(shù)現(xiàn)有方法遵循傳統(tǒng)的感知、預(yù)測(cè)和規(guī)劃流程。感知旨在獲得對(duì)周?chē)鷪?chǎng)景的語(yǔ)義理解,如3D檢測(cè)和語(yǔ)義圖構(gòu)建。后續(xù)預(yù)測(cè)模塊捕獲其他交通參與者的運(yùn)動(dòng),然后規(guī)劃模塊根據(jù)先前的輸出做出決策。

然而,這種串行設(shè)計(jì)通常在訓(xùn)練的每個(gè)階段都需要GT,但實(shí)例級(jí)box和高清晰度地圖很難標(biāo)注。此外,它們通常只預(yù)測(cè)目標(biāo)邊界框的運(yùn)動(dòng),無(wú)法捕捉到有關(guān)3D場(chǎng)景的更細(xì)粒度的信息。

Occworld是一種新的范式,可以同時(shí)預(yù)測(cè)周?chē)鷪?chǎng)景的演變,并規(guī)劃自動(dòng)駕駛汽車(chē)的未來(lái)軌跡。OccWorld是一個(gè)三維語(yǔ)義占用空間中的世界模型,來(lái)對(duì)駕駛場(chǎng)景的發(fā)展進(jìn)行建模。它采用3D語(yǔ)義占用作為場(chǎng)景表示,而不是傳統(tǒng)的3D框和分割圖,它可以描述場(chǎng)景的更細(xì)粒度的3D結(jié)構(gòu)。此外,3D占用率可以從稀疏的激光雷達(dá)點(diǎn)中有效地學(xué)習(xí),因此是描述周?chē)鷪?chǎng)景的一種潛在的更經(jīng)濟(jì)的方式。

為了實(shí)現(xiàn)這一點(diǎn),首先使用矢量量化變分自動(dòng)編碼器(VQVAE)來(lái)細(xì)化high-level concepts,并以自監(jiān)督的方式獲得離散場(chǎng)景tokens。然后,定制了生成預(yù)訓(xùn)練transformer(GPT)架構(gòu),并提出了一種時(shí)空生成transformer來(lái)預(yù)測(cè)隨后的場(chǎng)景token和ego tokens,以分別預(yù)測(cè)未來(lái)的占有率和自ego軌跡。首先執(zhí)行空間混合來(lái)聚合場(chǎng)景tokens,并獲得多尺度tokens來(lái)表示多個(gè)級(jí)別的場(chǎng)景。然后,將時(shí)間注意力應(yīng)用于不同級(jí)別的tokens,以預(yù)測(cè)下一幀的token,并使用U-net結(jié)構(gòu)對(duì)其進(jìn)行集成。最后,我們使用經(jīng)過(guò)訓(xùn)練的VQVAE解碼器將場(chǎng)景標(biāo)記轉(zhuǎn)換為占用空間,并學(xué)習(xí)軌跡解碼器以獲得ego規(guī)劃結(jié)果!

一些相關(guān)的任務(wù)介紹

3D占用預(yù)測(cè):3D占用預(yù)測(cè)旨在預(yù)測(cè)3D空間中的每個(gè)體素是否被占用以及其語(yǔ)義標(biāo)簽是否被占用。早期的方法利用激光雷達(dá)作為輸入來(lái)完成整個(gè)3D場(chǎng)景的3D占用。最近的方法開(kāi)始探索更具挑戰(zhàn)性的基于視覺(jué)的3D占用預(yù)測(cè)或應(yīng)用視覺(jué)backbone來(lái)有效地執(zhí)行基于激光雷達(dá)的3D占用預(yù)測(cè)。3D占用提供了對(duì)周?chē)鷪?chǎng)景的更全面的描述,包括動(dòng)態(tài)和靜態(tài)元素。它也可以從稀疏累積的多次激光雷達(dá)數(shù)據(jù)或視頻序列中有效地學(xué)習(xí)。然而,現(xiàn)有的方法只關(guān)注于獲得三維語(yǔ)義占用,而忽略了其時(shí)間演變,這對(duì)自動(dòng)駕駛的安全至關(guān)重要。

自動(dòng)駕駛的世界模型:世界模型在控制工程和人工智能領(lǐng)域有著悠久的歷史,通常被定義為在給定動(dòng)作和過(guò)去的情況下產(chǎn)生下一個(gè)場(chǎng)景觀察。深度神經(jīng)網(wǎng)絡(luò)的發(fā)展促進(jìn)了深度生成模型作為世界模型的使用?;赟tableDiffusion等大型預(yù)訓(xùn)練圖像生成模型,可以生成不同場(chǎng)景的逼真駕駛序列。然而,它們?cè)?D圖像空間中產(chǎn)生未來(lái)的觀測(cè)結(jié)果,缺乏對(duì)3D周?chē)鷪?chǎng)景的理解。其他一些方法使用未標(biāo)記的激光雷達(dá)數(shù)據(jù)來(lái)探索預(yù)測(cè)點(diǎn)云,這些方法忽略了語(yǔ)義信息,無(wú)法應(yīng)用于基于視覺(jué)或基于融合的自動(dòng)駕駛??紤]到這一點(diǎn),Occworld在3D占用空間中探索了一個(gè)世界模型,以更全面地模擬3D場(chǎng)景的演變!

端到端自動(dòng)駕駛:自動(dòng)駕駛的最終目標(biāo)是基于對(duì)周?chē)鷪?chǎng)景的觀察來(lái)獲得控制信號(hào)。最近的方法遵循這一概念,在給定傳感器輸入的情況下輸出ego汽車(chē)的規(guī)劃結(jié)果。它們大多遵循傳統(tǒng)的感知、預(yù)測(cè)和規(guī)劃流程。通常首先執(zhí)行BEV感知以提取相關(guān)信息(例如,3D agent框、語(yǔ)義map、軌跡),然后利用它們來(lái)推斷agent和ego的未來(lái)軌跡。Occworld提出了一個(gè)世界模型來(lái)預(yù)測(cè)周?chē)鷦?dòng)態(tài)和靜態(tài)元素的演變!

Occworld結(jié)構(gòu)

圖片

圖2:用于三維語(yǔ)義占用預(yù)測(cè)和運(yùn)動(dòng)規(guī)劃的OccWorld框架。

采用類(lèi)似GPT的生成架構(gòu),以自回歸方式從先前場(chǎng)景預(yù)測(cè)下一個(gè)場(chǎng)景,通過(guò)兩個(gè)關(guān)鍵設(shè)計(jì)使GPT適應(yīng)自動(dòng)駕駛場(chǎng)景:

1) 訓(xùn)練3D占用場(chǎng)景標(biāo)記器來(lái)產(chǎn)生3D場(chǎng)景的離散高級(jí)表示;

2) 在空間-時(shí)間因果自注意之前和之后進(jìn)行空間混合,以有效地產(chǎn)生全局一致的場(chǎng)景預(yù)測(cè),分別使用GT和預(yù)測(cè)場(chǎng)景標(biāo)記作為后代的輸入進(jìn)行訓(xùn)練和推理。

1)自動(dòng)駕駛中的World Model

自動(dòng)駕駛旨在完全防止或部分減少人類(lèi)駕駛員的行為,形式上自動(dòng)駕駛的目標(biāo)是在給定傳感器輸入的情況下,獲得當(dāng)前時(shí)間戳T的控制命令(例如,油門(mén)、轉(zhuǎn)向、制動(dòng))。由于從軌跡到控制信號(hào)的映射高度依賴于車(chē)輛規(guī)格和狀態(tài),因此通常假設(shè)給定的令人滿意的控制器,因此重點(diǎn)關(guān)注ego車(chē)輛的軌跡規(guī)劃。一個(gè)自動(dòng)駕駛模型A然后將傳感器輸入和來(lái)自過(guò)去T幀的ego軌跡作為輸入,并預(yù)測(cè)未來(lái)f幀的ego trajectory :

自動(dòng)駕駛的傳統(tǒng)pipeline通常遵循感知、預(yù)測(cè)和規(guī)劃的設(shè)計(jì),感知模塊per感知周?chē)鷪?chǎng)景,并從輸入傳感器數(shù)據(jù)s中提取高級(jí)信息z。預(yù)測(cè)模塊Pre集成高級(jí)信息z以預(yù)測(cè)場(chǎng)景中每個(gè)agent的未來(lái)軌跡ti。規(guī)劃模塊pla最終處理感知和預(yù)測(cè)結(jié)果{z,{ti}},以規(guī)劃ego車(chē)輛的運(yùn)動(dòng),常規(guī)pipeline可以公式化為:

盡管該框架具有良好的性能,但它通常需要在每個(gè)階段進(jìn)行監(jiān)督,標(biāo)注很困難。而且它只考慮目標(biāo)級(jí)別的移動(dòng),沒(méi)有更細(xì)粒度的演進(jìn)建模。受此啟發(fā),Occworld探索了一種新的基于世界模型的自動(dòng)駕駛范式,以全面模擬周?chē)鷪?chǎng)景的演變和自我運(yùn)動(dòng)。受生成預(yù)訓(xùn)練transformer(GPT)在自然語(yǔ)言處理(NLP)中最近取得的成功的啟發(fā),Occworld提出了一種用于自動(dòng)駕駛場(chǎng)景的自回歸生成建??蚣堋6x了一個(gè)世界模型w來(lái)作用于場(chǎng)景表示y,并能夠預(yù)測(cè)未來(lái)的場(chǎng)景。形式上,將世界模型w的函數(shù)公式化如下:

在獲得預(yù)測(cè)場(chǎng)景和ego位置后,可以將它們添加到輸入中,并以自回歸的方式進(jìn)一步預(yù)測(cè)下一幀,如圖2所示,考慮到它們的高階相互作用,世界模型w捕捉到了周?chē)鷪?chǎng)景和ego載體進(jìn)化的聯(lián)合分布!

2)3D占用場(chǎng)景標(biāo)記器

由于世界模型w對(duì)場(chǎng)景表示y進(jìn)行操作,因此其選擇對(duì)世界模型的性能至關(guān)重要。根據(jù)三個(gè)原則選擇y:

1)expressiveness,它應(yīng)該能夠全面地包含3D場(chǎng)景的3D結(jié)構(gòu)和語(yǔ)義信息;

2) 效率,學(xué)習(xí)應(yīng)該是經(jīng)濟(jì)的(例如,弱監(jiān)督或自監(jiān)督中學(xué)習(xí));

3) 多功能性,它應(yīng)該能夠適應(yīng)視覺(jué)和激光雷達(dá)模式。

考慮到上述所有原理,建議采用3D占用作為3D場(chǎng)景表示。3D占用將自車(chē)周?chē)?D空間劃分為H×W×D體素,并為每個(gè)體素分配一個(gè)標(biāo)簽l,表示它是否被占用以及被哪個(gè)類(lèi)別占用。3D占用提供了3D場(chǎng)景的密集表示,并且可以描述場(chǎng)景的3D結(jié)構(gòu)和語(yǔ)義信息。它可以從稀疏激光雷達(dá)注釋或可能從時(shí)間幀的自監(jiān)督中有效地學(xué)習(xí)。3D占有率也是模態(tài)認(rèn)知的,可以從單目相機(jī)、surround相機(jī)或激光雷達(dá)中獲得。

盡管3D占有率很全面,但它只提供了對(duì)場(chǎng)景的低級(jí)理解,很難直接模擬其演變。因此,Occworld提出了一種自監(jiān)督的方法,將場(chǎng)景標(biāo)記為來(lái)自3D占用的高級(jí)標(biāo)記。在y上訓(xùn)練矢量量化自動(dòng)編碼器(VQ-VAE),以獲得離散標(biāo)記z,從而更好地表示場(chǎng)景,如圖3所示。

3)Spatial-Temporal Generative Transformer

自動(dòng)駕駛的核心在于預(yù)測(cè)周?chē)澜缛绾窝葑?,并相?yīng)地規(guī)劃自車(chē)運(yùn)動(dòng)。雖然傳統(tǒng)方法通常分別執(zhí)行這兩項(xiàng)任務(wù),但建議學(xué)習(xí)一個(gè)世界模型w來(lái)聯(lián)合建模場(chǎng)景進(jìn)化和ego軌跡的分布。

如(3)中所定義的,世界模型w將過(guò)去的場(chǎng)景和ego位置作為輸入,并在一定時(shí)間間隔后預(yù)測(cè)它們的結(jié)果?;诒憩F(xiàn)力、效率和多功能性,采用3D占用y作為場(chǎng)景表示,并使用自監(jiān)督標(biāo)記器來(lái)獲得高級(jí)場(chǎng)景標(biāo)記T={zi}。為了整合ego運(yùn)動(dòng),進(jìn)一步將T與自我標(biāo)記聚合,以編碼ego車(chē)輛的空間位置!然后,所提出的OccWorld w在世界標(biāo)記T上起作用,其可以公式化為:

其中T是當(dāng)前時(shí)間戳,并且T是可用的歷史幀的數(shù)量。應(yīng)考慮每個(gè)時(shí)間戳內(nèi)世界tokens的空間關(guān)系和不同時(shí)間戳之間tokens的時(shí)間關(guān)系,以全面模擬世界變化。因此,Occworld提出了一種時(shí)空生成transformer架構(gòu),以有效地處理過(guò)去的世界tokens并預(yù)測(cè)下一個(gè)未來(lái),如圖4所示!

時(shí)空生成transformer 可以在考慮每個(gè)時(shí)間內(nèi)和跨時(shí)間的世界tokens聯(lián)合分布的情況下,在行駛序列中對(duì)世界變化進(jìn)行建模。時(shí)間注意力預(yù)測(cè)周?chē)鷧^(qū)域中固定位置的演變,而空間聚合使每個(gè)token都意識(shí)到全局場(chǎng)景。

4)OccWorld

采用兩階段的訓(xùn)練策略來(lái)訓(xùn)練OccWorld。對(duì)于第一階段,使用3D占用損失訓(xùn)練場(chǎng)景tokenizer e和解碼器d:

對(duì)于第二階段,采用學(xué)習(xí)的場(chǎng)景tokenizer e來(lái)獲得所有幀的場(chǎng)景標(biāo)記z,并約束預(yù)測(cè)tokes z^和z之間的差異。

為了有效訓(xùn)練,使用場(chǎng)景標(biāo)記器e獲得的標(biāo)記作為輸入,但應(yīng)用masked 的時(shí)間注意力來(lái)阻止未來(lái)tokens的效果。在推理過(guò)程中,逐步預(yù)測(cè)下一個(gè)幀。

實(shí)驗(yàn)對(duì)比分析

進(jìn)行了兩項(xiàng)任務(wù)來(lái)評(píng)估OccWorld:在Occ3D數(shù)據(jù)集上進(jìn)行4D占用預(yù)測(cè)和在nuScenes數(shù)據(jù)集上執(zhí)行運(yùn)動(dòng)規(guī)劃!

4D occupancy forecasting:3D占用預(yù)測(cè)旨在重建周?chē)臻g中每個(gè)體素的語(yǔ)義占用,無(wú)法捕捉3D占用的時(shí)間演變。這里探討了4D occupancy forecasting任務(wù),該任務(wù)旨在給定一些歷史occupancy 輸入的情況下預(yù)測(cè)未來(lái)的3Doccupancy,使用mIoU和IoU作為評(píng)估度量。

運(yùn)動(dòng)規(guī)劃:運(yùn)動(dòng)規(guī)劃的目標(biāo)是在給定GT周?chē)畔⒒蚋兄Y(jié)果的情況下,為自動(dòng)駕駛車(chē)輛產(chǎn)生安全的未來(lái)軌跡。規(guī)劃軌跡由BEV平面中的一系列2D waypoints 表示,這里使用L2 error和碰撞率作為評(píng)估度量。

結(jié)果如下:

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2023-10-30 09:47:00

自動(dòng)駕駛技術(shù)

2024-06-11 10:23:28

2024-03-13 09:39:45

端到端自動(dòng)駕駛

2024-04-15 11:40:37

自動(dòng)駕駛端到端

2023-08-05 13:08:54

2023-08-15 15:38:58

數(shù)據(jù)中心可持續(xù)發(fā)展

2023-08-24 09:52:44

自動(dòng)駕駛設(shè)計(jì)

2023-10-18 09:40:25

自動(dòng)駕駛技術(shù)

2024-08-29 09:40:51

2024-02-21 09:14:32

端到端自動(dòng)駕駛

2025-04-07 03:00:00

自動(dòng)駕駛

2023-01-04 09:59:48

自動(dòng)駕駛技術(shù)

2024-12-04 10:00:00

自動(dòng)駕駛3D檢測(cè)

2024-01-23 13:32:53

地平線自動(dòng)駕駛

2020-05-29 09:03:36

SD-WAN自動(dòng)化網(wǎng)絡(luò)

2024-01-04 09:35:41

自動(dòng)駕駛端到端

2025-02-10 10:35:00

自動(dòng)駕駛端到端模型

2019-12-10 13:06:07

物聯(lián)網(wǎng)智慧城市智能電網(wǎng)

2021-03-30 22:36:15

5G物聯(lián)網(wǎng)技術(shù)

2019-05-09 11:19:51

SAP管理智慧
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)