4090玩轉(zhuǎn)大場(chǎng)景幾何重建，RGB渲染和幾何精度達(dá)SOTA｜上海AI Lab&西工大新研究

作者：量子位 2025-04-14 08:40:00

人工智能新聞

來(lái)自上海AI Lab和西工大的研究團(tuán)隊(duì)認(rèn)為，這些問(wèn)題的根源在于其非結(jié)構(gòu)化設(shè)計(jì)本質(zhì)與并行化機(jī)制的缺失。

僅用4090就能實(shí)現(xiàn)大規(guī)模城市場(chǎng)景重建！

高效幾何重建新架構(gòu)CityGS-X來(lái)了，通過(guò)一種新型并行化混合分層三維表征架構(gòu)（PH2-3D）的可擴(kuò)展系統(tǒng)，突破了傳統(tǒng)三維重建在算力消耗和幾何精度上的限制。

算力瓶頸無(wú)處不在，當(dāng)前3D高斯?jié)姙R技術(shù)雖取得顯著進(jìn)展，卻仍面臨三大核心挑戰(zhàn)：處理速度緩慢、計(jì)算成本高昂、幾何精度有限。

這就引出一個(gè)關(guān)鍵命題：能否構(gòu)建一個(gè)兼具高效性、擴(kuò)展性和精確性的新一代幾何重建框架？

由此，團(tuán)隊(duì)提出了CityGS-X，研究的主要貢獻(xiàn)在于：

提出并行化混合層次三維表征（PH2-3D）的可擴(kuò)展架構(gòu)，摒棄了傳統(tǒng)大場(chǎng)景分塊算法造成的訓(xùn)練冗余，相比現(xiàn)有的SOTA幾何重建方法，訓(xùn)練速度提升了一倍。
提出多任務(wù)批渲染框架下的動(dòng)態(tài)分配錨點(diǎn)的并行機(jī)制，在訓(xùn)練階段以及渲染階段可以利用多張低端卡平替以及超越目前單張高端顯卡，對(duì)于5000+圖的大場(chǎng)景（Matrixcity），只需4卡4090即可實(shí)現(xiàn)。
提出在模態(tài)批渲染框架下的漸進(jìn)式RGB-深度-法向聯(lián)合訓(xùn)練方法，在RGB渲染和幾何精度上都達(dá)到同類任務(wù)中的SOTA。

以下是更多細(xì)節(jié)。

CityGS-X的構(gòu)建

CityGS-X提出基于并行化混合層次三維表征（PH2-3D）的可擴(kuò)展架構(gòu)，摒棄傳統(tǒng)繁瑣的合并-分區(qū)流程，首創(chuàng)批處理級(jí)多任務(wù)渲染機(jī)制；

開(kāi)發(fā)動(dòng)態(tài)多細(xì)節(jié)層次體素分配策略，實(shí)現(xiàn)顯存占用與計(jì)算效率的平衡；

設(shè)計(jì)漸進(jìn)式RGB-深度-法線聯(lián)合訓(xùn)練方案，通過(guò)多視角約束與深度先驗(yàn)的協(xié)同優(yōu)化，顯著提升幾何一致性。

PH2-3D的設(shè)計(jì)

團(tuán)隊(duì)提出一種基于分布式數(shù)據(jù)并行（DDP）范式的可擴(kuò)展三維表示方法，采用K層細(xì)節(jié)層次（LoDs）的混合結(jié)構(gòu)來(lái)表征大規(guī)模場(chǎng)景，其中每層級(jí)X_k X_k,1 X_k,v包含不同分辨率的體素集合。

體素坐標(biāo)通過(guò)公式計(jì)算生成：

其中δ為初始體素尺寸，P為SfM得到的稀疏點(diǎn)云。為實(shí)現(xiàn)多GPU負(fù)載均衡，團(tuán)隊(duì)設(shè)計(jì)空間平均采樣策略將體素均勻分配到M個(gè)GPU上，滿足分配規(guī)則：

每個(gè)體素X_k,v^(m)關(guān)聯(lián)可學(xué)習(xí)嵌入F_v^(m)∈R、縮放因子l_v^(m)∈R、空間位置x_v^(m)和n個(gè)偏移量O_v^(m)∈R^n×3。通過(guò)多GPU共享的高斯解碼器de^(·)實(shí)現(xiàn)并行屬性預(yù)測(cè)：