自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Occ預測最新SOTA!清華團隊提出基于高斯世界模型的GaussianWorld算法

人工智能 新聞
今天為大家分享清華大學最新的工作—GaussianWorld!基于高斯的全新世界模型。

寫在前面&筆者的個人理解

以視覺信息作為輸入的3D占用預測任務最近因其在自動駕駛中的關鍵應用而受到來自工業(yè)界和學術界的廣泛關注。3D占用預測任務旨在根據(jù)視覺輸入估計 3D 環(huán)境中每個體素的占用狀態(tài)和語義標簽。該任務提供了更細粒度的場景語義和結構描述,這對于開發(fā)安全且強大的自動駕駛系統(tǒng)非常重要。

利用時間輸入對于 3D 占用預測非常重要,因為它為理解場景演變提供了足夠的歷史上下文信息。大多數(shù)現(xiàn)有方法遵循傳統(tǒng)的感知、轉換和融合流程,給定順序輸入信息,感知模塊獨立獲得每個幀的場景表示,例如BEV特征以及體素特征。然后,轉換模塊根據(jù)自車軌跡對齊多幀的時序特征信息,融合模塊融合對齊的特征表示以推斷當前的 3D 占用情況。

然而,這些方法未能考慮駕駛場景演變的固有連續(xù)性和簡單性。相鄰幀中的駕駛場景表示應該彼此緊密相關,因為場景演變通常僅源于自車和其他動態(tài)物體的運動。直接融合多幀表征會忽略 3D 場景演化提供的這種強先驗信息,即靜態(tài)物體連貫性和動態(tài)物體運動,這使得模型很難理解駕駛場景的發(fā)展。此外,這種設計增加了時間建模的復雜性和計算工作量,從而降低了其效率和有效性。

考慮到上述提到的相關問題,在本文中,我們探索基于世界模型的范式以利用場景演變進行感知,該算法稱為GaussianWorld。GaussianWorld采用顯式 3D 高斯作為場景表示,而不是傳統(tǒng)的隱式 BEV/Voxel 表示,這可以實現(xiàn)物體運動的顯式和連續(xù)建模。給定歷史 3D 高斯和當前視覺輸入,GaussianWorld算法模型旨在預測場景如何演變并預測當前的占用情況。

為了證明提出的GaussianWorld算法模型的有效性,我們在流行的nuScenes數(shù)據(jù)集上進行了大量實驗。如下圖所示,我們的 GaussianWorld 可以有效地預測場景演變,并在不引入額外計算的情況下將單幀占用率預測提高 2% 以上(mIoU)。

圖片

論文鏈接:https://arxiv.org/pdf/2412.10373

網(wǎng)絡模型結構&技術細節(jié)

World Models for Perception

精確感知 3D 場景對于開發(fā)可靠的自動駕駛系統(tǒng)至關重要。它旨在預測 3D 場景的幾何形狀和語義,以支持后續(xù)的預測和規(guī)劃任務。感知模型利用前幀和當前幀的傳感器輸入來獲得感知結果。

圖片

感知任務中的時間建模的傳統(tǒng)流程包括三個階段,分別是感知、轉換和融合。感知模塊首先獨立提取每一幀的場景表示。隨著自車的前進,跨幀的自車表示會錯位。轉換模塊通過根據(jù)自我軌跡將過去的特征與當前幀對齊來解決此問題。然后,融合模塊整合對齊的多幀表示以供感知進行使用。傳統(tǒng)的流程可以表述為如下的公式形式。

圖片

盡管該框架的性能取得了較為不錯的成績,但它未能考慮駕駛場景固有的連續(xù)性和簡單性。駕駛場景的演變通常僅源于自車和其他動態(tài)物體的運動。相鄰幀中的駕駛場景表征本質上是相關的,包含了世界的演化動力學和物理定律。然而,直接融合多幀表征會忽略這種強先驗信息,從而限制其性能。

受此啟發(fā),我們探索了一種基于世界模型的范式,以利用場景演化進行感知。世界模型通過學習簡單但有效的時間建模先驗來增強感知。我們使用感知世界模型根據(jù)先前的表示和當前的傳感器輸入預測當前的表示,具體的表現(xiàn)形式如下

圖片

我們進一步將 3D 感知任務重新表述為以當前傳感器輸入為條件的 4D 預測問題,其表述形式如下

圖片

通過獲得預測的場景表征和下一個觀察值后,我們可以將它們輸入到世界模型中,以流式方式預測下一個表征。世界模型根據(jù)場景演變和當前觀察值學習場景表征的聯(lián)合分布,最終用于實現(xiàn)感知。

Explicit Scene Evolution Modeling

駕駛場景的演化一般簡單且連續(xù),主要由動態(tài)物體的運動引起。當在一定范圍內采用以自車為中心的場景表示時,場景演化通常可以分解為三個關鍵因素:靜態(tài)場景的自我運動對齊,動態(tài)物體的局部運動,新觀察區(qū)域的補全。通過對這些因素進行建模,世界模型可以學會有效地演化場景,如下圖所示。

圖片

考慮到上述場景演化的分解,我們采用 3D 高斯作為場景表示,以明確和連續(xù)地對場景演化進行建模。我們用一組稀疏的 3D 語義高斯來描述 3D 場景,其中每個高斯代表一個具有明確位置、比例、旋轉和語義概率的靈活區(qū)域。為了學習場景演化,我們引入了一個額外的時間特征屬性來捕獲 3D 高斯的歷史信息。3D 高斯表示可以表述為如下的公式形式。

圖片

我們進一步提出了一個 3D 高斯世界模型,GaussianWorld,以利用場景演化進行感知。提出的 GaussianWorld 對之前的 3D 高斯和當前的傳感器輸入進行操作,以預測當前的 3D 高斯。

圖片

接下來,我們將介紹 GaussianWorld 如何在三維高斯空間中對上述場景演化的分解因素進行建模。

(1)Ego Motion Alignment of Static Scenes.

GaussianWorld 的目標是基于之前的高斯結果預測當前的3D高斯,每幀的 3D 高斯表示代表以相應幀的自車位置為中心的一定范圍內的場景,向前移動會導致物體的全局位移。GaussianWorld 通過使用對齊模塊來對齊從上一幀到當前幀的 3D 高斯位置來解決此問題。為了實現(xiàn)這一點,它基于自車軌跡對整個場景的 3D 高斯進行全局仿射變換。形式上來看,給定最后一幀 3D 高斯和仿射變換矩陣,對齊的 3D 高斯可以表示為如下的公式形式。

圖片

(2)Local Movements of Dynamic Objects

我們還考慮了場景演變過程中動態(tài)物體的局部運動。GaussianWorld 通過更新動態(tài)高斯函數(shù)的位置來實現(xiàn)這一點。對齊的 3D 高斯函數(shù)根據(jù)其語義概率分為兩個互斥集,分別是動態(tài)高斯集合和靜態(tài)高斯集合。然后,GaussianWorld 使用運動層來學習對齊的 3D 高斯的聯(lián)合分布和當前觀察結果,以預測動態(tài)高斯的運動。

圖片

(3)Completion of Newly-Observed Areas

當自車移動到新位置時,某些現(xiàn)有區(qū)域會超出邊界,而一些新區(qū)域則變得可觀察。我們丟棄超出邊界的高斯函數(shù),并使用隨機初始化的高斯函數(shù)補全新觀察到的區(qū)域。為了保持一致數(shù)量的 3D 高斯函數(shù),我們在新觀察到的區(qū)域中均勻采樣等量的 3D 高斯函數(shù)。隨后,GaussianWorld 使用感知層根據(jù)當前觀察預測新觀察區(qū)域中已補全的 3D 高斯分布的所有屬性。

圖片

3D Gaussian World Model

接下來,我們介紹一下本文提出的GaussianWord的整體框架。從前一幀的 3D 高斯開始,我們首先應用對齊模塊來獲取當前幀的對齊 3D 高斯。在新觀察到的區(qū)域中,我們采樣額外的 3D 高斯并將其當前幀的3D高斯進行混合,從而一起描述整個場景。

圖片

我們基于當前傳感器的輸入數(shù)據(jù),使用運動層和感知層來更新對齊的3D高斯以及最新觀察到區(qū)域的3D高斯。值得注意的是,這兩層共享相同的模型架構和參數(shù),即編碼器模塊和細化模塊,從而允許它們集成到統(tǒng)一的演化層中并并行計算。這種設計確保GaussianWorld 保持模型簡單性和計算效率。我們堆疊多個演化層以迭代地細化 3D 高斯函數(shù),使模型具有足夠的能力來學習場景演化

圖片

此外,為了解決 3D 高斯表示與現(xiàn)實世界之間的潛在不一致問題,我們加入了另外的細化層來微調 3D 高斯的所有屬性

圖片

演化層和感知層之間的唯一區(qū)別在于歷史高斯的哪些屬性被調整。這種調整可以合并到統(tǒng)一的細化塊中,如下圖所示。因此,兩個層都可以集成到統(tǒng)一的高斯世界層中。

圖片

我們采用交叉熵損失和 lovaszsoftmax損失進行訓練,首先在單幀任務上對我們的模型進行預訓練。然后我們使用流式訓練策略對模型進行微調,其中每個場景的圖像按順序輸入到模型中。在每次訓練迭代期間,將當前幀圖像與上一幀中預測的 3D 高斯相結合輸入到模型中進行 3D 占用預測。當前幀中預測的 3D 高斯將傳遞到下一次迭代進行連續(xù)流式訓練。在流式訓練的早期階段,模型還不能熟練地預測場景的演變,導致流式預測誤差很大。為了增強訓練穩(wěn)定性,我們從短序列開始訓練,并在整個訓練過程中逐漸增加序列長度。我們使用概率建模,并在每次迭代中以的概率隨機丟棄前一幀的 3D 高斯表示。隨著訓練的進展,我們逐漸降低的值,使模型能夠適應預測更長的序列。

實驗結果&評價指標

我們對 nuScnene 驗證集上以視覺為中心的 3D 語義占用預測方法與其他最先進方法進行了全面比較,并使用 SurroundOcc 的占用標簽,相關的實驗結果如下表所示。

圖片

對于 GaussianWorld 的第一個訓練階段,我們在單幀設置中復現(xiàn)了 GaussianFormer,記為 GaussianFormer-B。僅使用 25600 個高斯函數(shù),它就實現(xiàn)了與當前最先進的方法相當?shù)男阅?。由于此基準上缺乏時序建模方法,我們引入了 GaussianFormer 的時序融合變體以進行公平比較,記為 GaussianFormer-T。經(jīng)過第二階段的訓練,我們的 GaussianWorld 的表現(xiàn)遠勝于所有單幀模型和基于時序融合的 GaussianFormer。與單幀模型 GaussianFormer-B 相比,它的語義 mIoU 提高了 2.4%,幾何 IoU 提高了 2.7%。此外,GaussianWorld 的表現(xiàn)也優(yōu)于時間融合模型 GaussianFormer-T,mIoU 增加了 1.7%,IoU 增加了 2.0%。這些結果凸顯了我們基于世界模型的感知框架優(yōu)于傳統(tǒng)的時序融合方法。相關的可視化結果如下圖所示。

圖片

我們對基于 GaussianFormer 的不同時序建模方法的性能和效率進行了比較。我們探索了兩種實現(xiàn) GaussianFormer-T 的方法,分別在 3D 高斯空間和透視視圖空間中進行時序融合。對于前者,我們獨立提取每幀的 3D 高斯表示,并利用 4D 稀疏卷積來促進跨幀 3D 高斯之間的時序交互。對于后者,我們獨立提取每幀的多尺度圖像特征,并采用可變形注意機制來實現(xiàn)當前幀的 3D 高斯和來自不同幀的圖像特征之間的交互。相關的實驗結果指標如下所示。

圖片

我們的 GaussianWorld 遠遠超越了所有其他時序建模方法,并且顯著降低了延遲和內存消耗。值得注意的是,與單幀模型相比,我們的 GaussianWorld 在推理延遲和內存消耗幾乎相同的情況下顯著提高了性能。這歸功于我們統(tǒng)一而簡潔的模型架構,它可以處理單幀輸入和流式輸入,而無需引入額外的計算。

此外,我們的 GaussianWorld 明確地模擬了基于世界模型的感知場景演化的三個分解因素。為了評估這些因素的影響,我們進行了消融研究以確認其有效性,相關額實驗結果如下表所示。

圖片

下表也展示了使用不同流長度時,我們的 GaussianWorld 的 mIoU 和 IoU 性能。我們觀察到,流式傳輸更多幀通常會帶來更好的性能,但在大約 20 幀后會略有下降。改進源于我們對場景演變的建模,有效地考慮了歷史幀。

圖片

我們也探討不同流媒體訓練策略的影響,相關的實驗結果匯總在下面的表格中。

圖片

結論

在本文中,我們提出了一個基于世界模型的框架,利用場景演化進行 3D 語義占用預測。我們將 3D 占用預測重新表述為以當前傳感器輸入為條件的 4D 占用預測問題。我們將場景演化分解為三個因素,并利用 3D 高斯進行顯示建模。然后,我們使用GaussianWorld 來顯式地利用 3D 高斯空間中的場景演化,并以流式傳輸?shù)姆绞酱龠M 3D 語義占用預測。大量的實驗結果表明,與現(xiàn)有方法相比,我們的模型在不引入額外計算開銷的前提下,展示了SOTA的性能。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2025-02-14 10:56:58

2021-07-08 15:39:50

機器學習人工智能計算

2022-03-07 10:04:09

機器學習訓練模型

2024-12-25 09:50:00

2024-10-12 10:57:39

2024-07-31 09:30:00

2024-12-18 10:30:00

自動駕駛模型數(shù)據(jù)

2023-07-17 11:02:36

模型開源

2023-07-27 13:58:19

2024-01-16 17:17:30

模型訓練

2025-01-26 11:00:00

2024-09-10 10:07:19

2021-11-01 10:40:15

機器學習人工智能計算機

2021-08-13 15:07:02

模型人工智能深度學習

2025-02-17 07:00:00

蘋果模型

2023-10-13 15:34:55

時間序列TimesNet

2024-12-12 10:20:00

自動駕駛生成

2025-01-10 09:05:00

2023-05-15 12:32:29

GPT-4開源

2024-08-29 09:40:51

點贊
收藏

51CTO技術棧公眾號