BEV新變革!GaussianBEV:首次將Gaussian引入BEV感知領(lǐng)域!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
寫(xiě)在前面&筆者的個(gè)人理解
BEV感知又要進(jìn)化了!今天看到了一篇BEV感知結(jié)合3D Gaussian實(shí)現(xiàn)BEV分割的任務(wù),很贊!??!性能暫時(shí)算不上驚艷,但范式上有很大的參考性,分割任務(wù)上是可行的,OCC、檢測(cè)等任務(wù)也可以考慮!
BEV感知已經(jīng)廣泛用于環(huán)視3D感知。它允許將不同相機(jī)的特征合并到一個(gè)空間中,提供3D場(chǎng)景的統(tǒng)一表示。其核心是view transformer,將圖像視圖轉(zhuǎn)換為BEV。然而基于幾何或cross-att的view transformer方法并不能提供足夠詳細(xì)的場(chǎng)景表示,因?yàn)樗鼈兪褂玫?D空間的子采樣對(duì)于建模環(huán)境的精細(xì)結(jié)構(gòu)來(lái)說(shuō)是不足的。于是本文提出了GaussianBEV,這是一種將圖像特征轉(zhuǎn)換為BEV的新方法,通過(guò)使用一組在3D空間中定位和定向的3D高斯來(lái)精細(xì)地表示場(chǎng)景。然后通過(guò)調(diào)整基于高斯splatting的3D表示渲染,以生成BEV特征圖。GaussianBEV是第一種在線使用這種3D高斯建模和3D場(chǎng)景渲染過(guò)程的方法,即不在特定場(chǎng)景上對(duì)其進(jìn)行優(yōu)化,而是直接集成到單階段模型中以用于BEV場(chǎng)景理解。實(shí)驗(yàn)表明,所提出的表示方法非常有效,將高斯BEV作為nuScenes數(shù)據(jù)集上BEV語(yǔ)義分割任務(wù)的最新技術(shù)。
總結(jié)來(lái)說(shuō),GaussianBEV主要貢獻(xiàn)如下:
- GaussianBEV利用3D高斯表示從圖像生成BEV特征圖,從而實(shí)現(xiàn)精細(xì)的3D場(chǎng)景建模。然后使用柵格化模塊在BEV中splatting此表示。據(jù)我們所知,這是第一次提出非場(chǎng)景特定的高斯splatting表示并將其集成到感知模型中。
- 驗(yàn)證明了我們的方法的有效性,使其成為BEV語(yǔ)義分割的最新技術(shù)。
相關(guān)工作回顧
基于深度?;谙袼厣疃裙烙?jì)和圖像特征的顯式預(yù)測(cè),建立了一系列模型。結(jié)合相機(jī)標(biāo)定參數(shù),這使得2D特征能夠反投影到3D特征點(diǎn)云中,最終在BEV網(wǎng)格中聚合。為了適應(yīng)深度估計(jì)的不確定性,特征實(shí)際上沿著穿過(guò)其像素的光線傳播,并由離散的深度概率估計(jì)進(jìn)行微調(diào)。為了改進(jìn)深度預(yù)測(cè),提出了一種在模型訓(xùn)練期間使用LiDAR數(shù)據(jù)的顯式深度監(jiān)督方案。然而,基于深度的方法對(duì)光線采樣策略很敏感,通常是沿著光線和物體表面反向投影特征(見(jiàn)圖1a)。
基于投影。通過(guò)嚴(yán)格的比較研究,[7]建議放棄深度估計(jì),轉(zhuǎn)而采用更簡(jiǎn)單的投影方案:使用一組預(yù)定義的3D點(diǎn)來(lái)描述場(chǎng)景,并通過(guò)使用校準(zhǔn)數(shù)據(jù)將點(diǎn)投影到相機(jī)特征圖上來(lái)探測(cè)相機(jī)特征。此投影忽略了實(shí)際對(duì)象和背景放置,但返回了場(chǎng)景的更密集表示,沒(méi)有超出對(duì)象表面深度的空隙。通過(guò)選擇稀疏網(wǎng)格表示來(lái)減少生成BEV網(wǎng)格的計(jì)算和內(nèi)存開(kāi)銷(xiāo)。基于投影的視圖變換方法很簡(jiǎn)單,但會(huì)產(chǎn)生粗略的BEV表示,因?yàn)檠刂饩€的所有體素都接收到相同的特征(見(jiàn)圖1b)。
基于注意力。利用Transformer模型的最新進(jìn)展,深度估計(jì)被基于注意力的特征調(diào)制方案所取代。提出了幾種優(yōu)化方案來(lái)解決圖像和BEV網(wǎng)格標(biāo)記之間成對(duì)匹配的計(jì)算復(fù)雜性:空間和時(shí)間注意力的因子分解、可變形注意力、標(biāo)定和時(shí)間戳先驗(yàn)的引入。對(duì)于分割任務(wù),由于需要定義密集的查詢(xún)映射,基于注意力的視圖轉(zhuǎn)換在計(jì)算和內(nèi)存方面都是密集的。這就是為什么一些方法預(yù)測(cè)低分辨率BEV(見(jiàn)圖1c),然后通過(guò)逆卷積對(duì)其進(jìn)行上采樣。
高斯splatting。高斯splatting(GS)是一種3D場(chǎng)景渲染技術(shù),它使用3D高斯來(lái)描述場(chǎng)景。每個(gè)高斯函數(shù)都由其位置、比例、旋轉(zhuǎn)、不透明度和球諧顏色模型參數(shù)化。整個(gè)渲染管道是差分的,允許基于一組圖像將高斯參數(shù)優(yōu)化到特定場(chǎng)景。GS既快速又并行,允許在GPU上進(jìn)行實(shí)時(shí)操作。此外,通過(guò)修剪更窄、更透明的高斯分布,可以在細(xì)節(jié)和渲染速度之間進(jìn)行權(quán)衡。與稀疏體素網(wǎng)格相比,高斯網(wǎng)格提供了更有效的場(chǎng)景表示,因?yàn)閱蝹€(gè)高斯網(wǎng)格可以描述大體積,而較小的高斯網(wǎng)格可以以任意分辨率精確編碼更精細(xì)的細(xì)節(jié)。細(xì)節(jié)和光柵化分辨率是渲染管道的參數(shù),而不是場(chǎng)景描述。已經(jīng)提出了幾個(gè)擴(kuò)展,允許管理動(dòng)態(tài)對(duì)象或從表示中的基礎(chǔ)模型中提取語(yǔ)義特征。在所有情況下,高斯表示都是特定于場(chǎng)景的。
在我們的工作中,我們建議使用高斯表示來(lái)克服以前視圖變換方法的缺點(diǎn)。與之前離線學(xué)習(xí)高斯表示的高斯電高斯splatting不同,我們建議學(xué)習(xí)一個(gè)能夠提供場(chǎng)景在線高斯表示的神經(jīng)網(wǎng)絡(luò)。
詳解GaussianBEV
整體結(jié)構(gòu)如圖2所示:
3D Gaussian generator
給定輸入特征圖F,3D高斯生成器使用多個(gè)預(yù)測(cè)頭預(yù)測(cè)場(chǎng)景的3D高斯表示。圖3說(shuō)明了它如何在特征圖上運(yùn)行。
高斯中心。場(chǎng)景中高斯分布的3D位置由應(yīng)用于F的深度頭和3D偏移頭估計(jì)。第一種方法預(yù)測(cè)3D中心沿光線的初始位置。第二種方法通過(guò)向其添加一個(gè)小的3D位移來(lái)細(xì)化這個(gè)3D位置,通過(guò)不沿光線凍結(jié)高斯分布,為高斯分布的定位提供了更大的靈活性。
更確切地說(shuō),對(duì)于坐標(biāo)為($u_{n,i}$,$v_{n,i}$)的相機(jī)n的特征圖中的像素i,深度頭預(yù)測(cè)視差$d_{n,i}$∈[0,1]。為了補(bǔ)償從一個(gè)相機(jī)到另一個(gè)相機(jī)的焦距多樣性對(duì)深度預(yù)測(cè)的影響,如[23]中提出的,在參考焦距f中,視差被預(yù)測(cè)到一個(gè)縮放因子。知道與相機(jī)n相關(guān)的真實(shí)焦距fn,然后對(duì)度量深度$z_{n,i}$進(jìn)行如下解碼:
然后使用第n個(gè)相機(jī)的內(nèi)參Kn推導(dǎo)出相機(jī)參考系中的相應(yīng)3D點(diǎn):
產(chǎn)生的3D點(diǎn)被約束為沿著穿過(guò)所考慮像素的光線。由于這種約束,它們的定位不一定是最優(yōu)的。為了克服這個(gè)問(wèn)題,我們建議使用3D偏移預(yù)測(cè)頭。它的目的是提供一個(gè)小的位移$△_{n,i}$,應(yīng)用于高斯的3D中心,以細(xì)化其在所有三個(gè)方向上的位置。通過(guò)以下步驟可以簡(jiǎn)單地獲得精確的3D點(diǎn):
在這個(gè)階段,為每個(gè)相機(jī)計(jì)算的3D高斯中心在相應(yīng)的相機(jī)參考系中表示。為了在世界參考系中表達(dá)這些點(diǎn),應(yīng)用了外參矩陣[Rn|tn],實(shí)現(xiàn)相機(jī)到世界的轉(zhuǎn)換:
高斯旋轉(zhuǎn)。場(chǎng)景中高斯分布的3D旋轉(zhuǎn)是通過(guò)應(yīng)用于F的旋轉(zhuǎn)頭來(lái)估計(jì)的。對(duì)于相機(jī)n的特征圖中的給定像素,它以單位四元數(shù)q的形式輸出偏心旋轉(zhuǎn)。像素的偏心旋轉(zhuǎn)對(duì)應(yīng)于相對(duì)于穿過(guò)它的3D光線的旋轉(zhuǎn)。這種建模使旋轉(zhuǎn)頭更容易學(xué)習(xí),因?yàn)樗恢琅c它正在處理的像素對(duì)應(yīng)的光線。例如,放置在場(chǎng)景中兩個(gè)不同位置并在相機(jī)參考系中具有不同絕對(duì)(自中心)旋轉(zhuǎn)的兩個(gè)對(duì)象在圖像中可能具有相同的外觀。在這種情況下,旋轉(zhuǎn)頭預(yù)測(cè)的偏心旋轉(zhuǎn)將是相同的。然后,使用相機(jī)的固有參數(shù)來(lái)檢索自中心旋轉(zhuǎn)信息。
為此,計(jì)算表示穿過(guò)相機(jī)n的像素i的光線與軸$[0,0,1]^T$之間的旋轉(zhuǎn)的四元數(shù)。然后通過(guò)以下步驟恢復(fù)表示相機(jī)參考系中的自中心旋轉(zhuǎn)的四元數(shù):
最后,對(duì)于高斯中心,使用$q^w_{n,i}$計(jì)算表示高斯在世界參考系中的旋轉(zhuǎn)的四元數(shù),該四元數(shù)對(duì)相機(jī)n的相機(jī)到世界的旋轉(zhuǎn)進(jìn)行建模:
高斯尺寸、不透明度和特征。最后三個(gè)高斯參數(shù)不依賴(lài)于光學(xué)特性和相機(jī)定位,而是編碼語(yǔ)義特性。因此,簡(jiǎn)單地使用三個(gè)頭來(lái)預(yù)測(cè)BEV光柵化器模塊渲染高斯集G所需的集S、O和E。
BEV rasterizer
BEV光柵化器模塊用于從3D高斯生成器預(yù)測(cè)的高斯集G中獲得BEV特征圖B。為此,高斯高斯splatting中提出的差分光柵化過(guò)程已被調(diào)整為執(zhí)行這種渲染。第一種調(diào)整已經(jīng)在其他離線語(yǔ)義重建工作中提出,包括渲染C維特征而不是顏色。在我們的例子中,這會(huì)產(chǎn)生一個(gè)包含感知任務(wù)所必需的語(yǔ)義特征的渲染。第二個(gè)調(diào)整涉及所使用的投影類(lèi)型。我們對(duì)渲染算法進(jìn)行了參數(shù)化,以生成正交渲染而不是透視渲染,更適合場(chǎng)景的BEV表示。
GaussianBEV training
高斯正則化損失。盡管高斯BEV可以通過(guò)上述損失進(jìn)行有效訓(xùn)練,但直接作用于高斯表示的正則化函數(shù)的添加提高了其代表性。特別是,在訓(xùn)練過(guò)程中增加了兩個(gè)正則化損失。
首先,深度損失旨在使用激光雷達(dá)在圖像中的投影提供的深度信息來(lái)規(guī)范高斯人的位置。這種損失增加了對(duì)深度水頭預(yù)測(cè)的約束,以獲得初始3D位置,然后通過(guò)3D偏移對(duì)其進(jìn)行細(xì)化。深度損失Ldepth定義如下:
其次,早期監(jiān)督損失旨在優(yōu)化BEV骨干之前的高斯表示。其想法是限制BEV特征,以直接為語(yǔ)義分割任務(wù)提供所有必要的信息。在實(shí)踐中,分割頭被添加并直接連接到BEV光柵化器模塊的輸出。早期監(jiān)督損失的定義與Lsem類(lèi)似。因此,總損失函數(shù)由下式定義:
實(shí)驗(yàn)結(jié)果
結(jié)論
本文介紹了GaussianBEV,這是一種新的圖像到BEV變換方法,是BEV語(yǔ)義分割的最新進(jìn)展。基于在線3D高斯生成器,它將圖像特征圖的每個(gè)像素轉(zhuǎn)換為語(yǔ)義化的3D高斯。然后,高斯人被潑灑以獲得BEV特征圖。我們已經(jīng)證明,高斯表示能夠適應(yīng)場(chǎng)景中存在的不同幾何結(jié)構(gòu),從而實(shí)現(xiàn)精細(xì)的3D建模。我們希望這項(xiàng)初步工作將為使用在線高斯splatting表示的3D感知的進(jìn)一步研究打開(kāi)大門(mén)。