4090玩轉(zhuǎn)大場(chǎng)景幾何重建,RGB渲染和幾何精度達(dá)SOTA|上海AI Lab&西工大新研究
僅用4090就能實(shí)現(xiàn)大規(guī)模城市場(chǎng)景重建!
高效幾何重建新架構(gòu)CityGS-X來(lái)了,通過(guò)一種新型并行化混合分層三維表征架構(gòu)(PH2-3D)的可擴(kuò)展系統(tǒng),突破了傳統(tǒng)三維重建在算力消耗和幾何精度上的限制。
算力瓶頸無(wú)處不在,當(dāng)前3D高斯?jié)姙R技術(shù)雖取得顯著進(jìn)展,卻仍面臨三大核心挑戰(zhàn):處理速度緩慢、計(jì)算成本高昂、幾何精度有限。
來(lái)自上海AI Lab和西工大的研究團(tuán)隊(duì)認(rèn)為,這些問(wèn)題的根源在于其非結(jié)構(gòu)化設(shè)計(jì)本質(zhì)與并行化機(jī)制的缺失。
這就引出一個(gè)關(guān)鍵命題:能否構(gòu)建一個(gè)兼具高效性、擴(kuò)展性和精確性的新一代幾何重建框架?
由此,團(tuán)隊(duì)提出了CityGS-X,研究的主要貢獻(xiàn)在于:
- 提出并行化混合層次三維表征(PH2-3D)的可擴(kuò)展架構(gòu),摒棄了傳統(tǒng)大場(chǎng)景分塊算法造成的訓(xùn)練冗余,相比現(xiàn)有的SOTA幾何重建方法,訓(xùn)練速度提升了一倍。
- 提出多任務(wù)批渲染框架下的動(dòng)態(tài)分配錨點(diǎn)的并行機(jī)制,在訓(xùn)練階段以及渲染階段可以利用多張低端卡平替以及超越目前單張高端顯卡,對(duì)于5000+圖的大場(chǎng)景(Matrixcity),只需4卡4090即可實(shí)現(xiàn)。
- 提出在模態(tài)批渲染框架下的漸進(jìn)式RGB-深度-法向聯(lián)合訓(xùn)練方法,在RGB渲染和幾何精度上都達(dá)到同類任務(wù)中的SOTA。
以下是更多細(xì)節(jié)。
CityGS-X的構(gòu)建
CityGS-X提出基于并行化混合層次三維表征(PH2-3D)的可擴(kuò)展架構(gòu),摒棄傳統(tǒng)繁瑣的合并-分區(qū)流程,首創(chuàng)批處理級(jí)多任務(wù)渲染機(jī)制;
開(kāi)發(fā)動(dòng)態(tài)多細(xì)節(jié)層次體素分配策略,實(shí)現(xiàn)顯存占用與計(jì)算效率的平衡;
設(shè)計(jì)漸進(jìn)式RGB-深度-法線聯(lián)合訓(xùn)練方案,通過(guò)多視角約束與深度先驗(yàn)的協(xié)同優(yōu)化,顯著提升幾何一致性。
PH2-3D的設(shè)計(jì)
團(tuán)隊(duì)提出一種基于分布式數(shù)據(jù)并行(DDP)范式的可擴(kuò)展三維表示方法,采用K層細(xì)節(jié)層次(LoDs)的混合結(jié)構(gòu)來(lái)表征大規(guī)模場(chǎng)景,其中每層級(jí)Xk Xk,1 Xk,v包含不同分辨率的體素集合。
體素坐標(biāo)通過(guò)公式計(jì)算生成:
其中δ為初始體素尺寸,P為SfM得到的稀疏點(diǎn)云。為實(shí)現(xiàn)多GPU負(fù)載均衡,團(tuán)隊(duì)設(shè)計(jì)空間平均采樣策略將體素均勻分配到M個(gè)GPU上,滿足分配規(guī)則:
每個(gè)體素Xk,v(m)關(guān)聯(lián)可學(xué)習(xí)嵌入Fv(m)∈R、縮放因子lv(m)∈R、空間位置xv(m)和n個(gè)偏移量Ov(m)∈Rn×3。通過(guò)多GPU共享的高斯解碼器de(·)實(shí)現(xiàn)并行屬性預(yù)測(cè):
其中和
分別表示視角相對(duì)距離和觀察方向。
該設(shè)計(jì)通過(guò)顯式存儲(chǔ)高斯屬性和梯度同步機(jī)制,顯著降低顯存消耗和GPU間通信開(kāi)銷。
批處理級(jí)多任務(wù)渲染機(jī)制
團(tuán)隊(duì)采用批處理級(jí)多任務(wù)渲染機(jī)制,首先將批量渲染圖像分割為16×16像素的圖塊,并基于Grendal-GS的自適應(yīng)負(fù)載均衡策略分配到不同GPU。
在每塊渲染任務(wù)中,提出視角相關(guān)高斯遷移策略:并行搜索所有GPU上各LoD層級(jí)的相交體素,預(yù)測(cè)對(duì)應(yīng)高斯屬性(如公式所示),并遷移至任務(wù)分配GPU。
隨后各區(qū)塊遵循經(jīng)典基于瓦片的光柵化并行渲染:
其中N為遷移高斯點(diǎn)數(shù)量,π(·)為遷移高斯重排序函數(shù)。
同時(shí)基于PGSR策略生成當(dāng)前視角法線圖:
RcT表示相機(jī)到世界坐標(biāo)的旋轉(zhuǎn)矩陣,nπ(i)為第π(i)個(gè)重排序高斯的法線。
此外采用無(wú)偏深度渲染技術(shù)計(jì)算深度圖,將深度視為光線與高斯平面的交點(diǎn):
D表示通過(guò)alpha混合的距離圖,dπ(i)為第π(i)個(gè)重排序高斯的距離,P為齊次坐標(biāo)表示,K-1為相機(jī)內(nèi)參逆矩陣。
傳統(tǒng)方法如MVGS受限于單GPU顯存需梯度累積,而多GPU并行機(jī)制可實(shí)現(xiàn)靈活擴(kuò)展訓(xùn)練批次。
批處理級(jí)連續(xù)性漸進(jìn)訓(xùn)練
作者提出三階段漸進(jìn)式訓(xùn)練策略:
階段一:批處理級(jí)RGB訓(xùn)練
研究表明合適的批尺寸能提升神經(jīng)網(wǎng)絡(luò)性能。通過(guò)批量渲染多視角圖像,作者將單視角RGB損失擴(kuò)展為批處理級(jí)損失:
其中B為預(yù)設(shè)批尺寸,和
分別為渲染圖像和真實(shí)圖像。
該策略使高斯解碼器能跨多視角更新梯度,有效緩解視角過(guò)擬合問(wèn)題。
階段二:增強(qiáng)深度先驗(yàn)訓(xùn)練
基于最新單目深度估計(jì)器具有平滑連續(xù)的表面預(yù)測(cè)特性,作者提出改進(jìn)方案:
1)通過(guò)最小二乘法恢復(fù)偽深度的真實(shí)尺度
2)計(jì)算目標(biāo)視圖與鄰近視圖的重投影誤差E
3)采用閾值τd過(guò)濾不一致區(qū)域,得到增強(qiáng)偽深度
批處理級(jí)深度正則化損失定義為:
階段三:批處理級(jí)幾何訓(xùn)練
為修正小物體深度誤差,作者構(gòu)建圖像對(duì):{(,
),...,(
,
)}對(duì)每個(gè)圖像對(duì),7×7像素塊中心點(diǎn)P2n,通過(guò)單應(yīng)矩陣,H2n-1,2n映射到配對(duì)圖像最小化塊間歸一化相關(guān)(NCC)誤差,
其中sg[·]表示梯度截?cái)啵琋CC(·)表示歸一化互相關(guān)。
實(shí)驗(yàn)結(jié)果
以下是與主流方法的渲染指標(biāo)對(duì)比(本文方法均使用4卡4090):
深度圖可視化結(jié)果:
對(duì)比試驗(yàn)中,團(tuán)隊(duì)在RGB渲染、深度渲染與其它方法對(duì)比,實(shí)驗(yàn)表明CityGS-X在RGB渲染最優(yōu)的情況下,深度圖也最準(zhǔn)確,具有更少的浮點(diǎn)以及地面的空洞。
同時(shí)對(duì)于法線圖渲染,CityGS-X也展現(xiàn)出更準(zhǔn)確的細(xì)節(jié)。
法線圖可視化:
與目前的SOTA方法相比,CityGS-X在整體的mesh可視化上都有顯著提升。
texture和mesh可視化對(duì)比:
時(shí)間對(duì)比實(shí)驗(yàn)結(jié)果:
F1分?jǐn)?shù)對(duì)比實(shí)驗(yàn)結(jié)果:
在MatriCity數(shù)據(jù)集上進(jìn)行定量對(duì)比,CityGS-X在重建精度上有顯著提升,同時(shí)在訓(xùn)練速度上也有明顯提升。
論文鏈接:https://arxiv.org/pdf/2503.23044
項(xiàng)目主頁(yè):https://lifuguan.github.io/CityGS-X/
項(xiàng)目代碼:https://github.com/gyy456/CityGS-X