自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

再也不怕顯存爆炸了!高效重建「幾何精準」的大規(guī)模復(fù)雜三維場景,中科院提出CityGaussianV2

人工智能 新聞
是否還在擔心大規(guī)模場景訓練和壓縮耗時太長、顯存開銷太大?是否還在苦惱重建出的建筑物和道路表面破碎不堪?是否還在困擾如何定量衡量大規(guī)模場景幾何重建的精確程度?來自中科院自動化所的研究團隊提出了用于大規(guī)模復(fù)雜三維場景的高效重建算法CityGaussianV2,能夠在快速實現(xiàn)訓練和壓縮的同時,得到精準的幾何結(jié)構(gòu)與逼真的實時渲染體驗。

三維場景重建旨在基于圍繞目標場景拍攝的一組圖像恢復(fù)出場景的三維結(jié)構(gòu),其核心追求是精準的幾何結(jié)構(gòu)以及逼真的圖像渲染。

隨著近兩年的發(fā)展,3D Gaussian Splatting(3DGS)因其訓練和渲染效率上的優(yōu)勢逐漸成為該領(lǐng)域的主流算法。這一技術(shù)使用一組離散的高斯橢球來表示場景,并使用高度優(yōu)化的光柵器進行渲染。

然而,這一離散且無序的表征形式通常難以很好地擬合物體表面的實際分布,導(dǎo)致重建出的場景幾何結(jié)構(gòu)并不精準。近來包括SuGaR、2DGS、GOF在內(nèi)的一系列杰出工作針對這一問題進行了探索,并給出了有效的解決方案。

圖片

幾何重建質(zhì)量可視化比較

盡管這些技術(shù)在單一目標或小場景上取得了巨大的成功,但它們應(yīng)用于復(fù)雜的大規(guī)模場景卻往往面臨比3DGS更加嚴峻的挑戰(zhàn)。

從不同算法在大規(guī)模場景下的幾何重建效果中可以看出,SuGaR的模型容量有限,難以還原精細的幾何結(jié)構(gòu);GOF受到嚴重的模糊鬼影的干擾,許多視角下畫面被鬼影完全遮擋,以至于監(jiān)督失效,重建結(jié)果面對顯著的欠擬合;2DGS受到模糊鬼影的影響較弱,但也妨礙了其收斂效果,并且退化現(xiàn)象容易誘發(fā)高斯基元的過度增長,進而引起顯存爆炸,訓練難以為繼。

此外,大規(guī)模場景下長期以來缺少幾何重建質(zhì)量的有效評估手段,已有的工作或只進行了可視化定性比較,或忽視了欠觀測區(qū)域不穩(wěn)定的重建效果對指標產(chǎn)生的干擾。

大規(guī)模場景的重建往往還意味著顯著的訓練開銷,要重建1.97的區(qū)域會產(chǎn)生接近兩千萬的高斯點,意味著需要4.6G的存儲以及31.5G的顯存開銷,以及超過三小時的訓練時長。如果要進一步完成壓縮,通常還需要額外將近一個小時的時間。

針對這三方面的技術(shù)挑戰(zhàn),中科院自動化所的研究人員提出了CityGaussianV2。該算法繼承了CityGaussian的子模型劃分與數(shù)據(jù)分配方案,并使用2DGS作為基元來重建。

圖片

項目主頁: https://dekuliutesla.github.io/CityGaussianV2

論文鏈接: https://arxiv.org/pdf/2411.00771

代碼鏈接(500+星): https://github.com/DekuLiuTesla/CityGaussian

在此基礎(chǔ)上,CityGaussianV2引入了基于延展率過濾和梯度解耦的稠密化技術(shù),以及深度回歸監(jiān)督,同時合并了訓練和壓縮過程,得到了端到端的高效訓練管線,不僅有效加速算法收斂,同時保障了穩(wěn)定、快速、低顯存開銷的并行訓練。

CityGaussianV2算法介紹

場景重建基礎(chǔ)

3DGS使用一組高斯分布表征的橢球?qū)鼍斑M行表征,每個高斯球同時綁定包括不透明度、顏色以及高階球諧系數(shù)等用于alpha blending渲染的屬性,并通過包含L1損失和SSIM損失的加權(quán)和對渲染質(zhì)量進行監(jiān)督。

在訓練過程中,算法還會根據(jù)每個高斯基元的梯度信息進行自適應(yīng)地分裂和克隆,使得重建效果不佳的區(qū)域能夠自動被更合適的基元填充。

2DGS旨在增強幾何重建精度,并將橢球降維為橢圓面片作為基元表征場景,同時對渲染出的深度和法向量分布施加監(jiān)督,保證重建表面的平整性。

CityGaussian旨在將3DGS泛化到大場景,首先預(yù)訓練一個表征全局場景的粗粒度的3DGS場,隨后將預(yù)訓練結(jié)果劃分為一系列子模型,并根據(jù)子模型對訓練視圖渲染的貢獻程度為每個子模型分配訓練數(shù)據(jù)。每個子模型隨后會用不同的GPU并行微調(diào),并在訓練結(jié)束后進行合并和壓縮,得到場景的最終表征。

CityGaussianV2的優(yōu)化算法

圖片

高斯基元優(yōu)化算法示意圖

現(xiàn)有表面重建方案在泛化到大場景時往往展現(xiàn)出收斂遲緩、訓練不穩(wěn)定等問題,導(dǎo)致并行訓練失敗,難以取得良好的重建效果。

算法以泛化能力最好的2DGS為基元,在引入Depth-Anything-V2的偽深度監(jiān)督提供幾何先驗的基礎(chǔ)上,進一步提出了新的高斯基元稠密化方案。

可以觀察到,在復(fù)雜大規(guī)模場景上,2DGS在早期訓練階段比3DGS受到更嚴重的模糊偽影的干擾,導(dǎo)致在迭代次數(shù)有限的情況下性能顯著劣于3DGS。

為了緩解這一問題,研究人員引入梯度解耦策略,利用對圖像結(jié)構(gòu)差異更為敏感的SSIM損失作為稠密化的主要梯度來源:

圖片

此處用于控制梯度的尺度;另外在大規(guī)模場景下用2DGS進行重建的障礙在于其退化現(xiàn)象。實驗證據(jù)表明,當從遠距離或側(cè)面視角渲染時,部分面片可能會退化成線或點,尤其是那些延展率比較高的面片。

對于那些具有高不透明度的投影點,它們的移動往往意味著像素值的劇烈變化,從而使得它們獲得較高的梯度,并在稠密化過程中大量增殖,導(dǎo)致基元數(shù)量指數(shù)級增長,最終導(dǎo)致顯存爆炸問題。

為了解決這一問題,在稠密化過程中,對容易引起退化和梯度集中的具有極端延展率的高斯面片進行了篩選,并對其增殖過程進行了限制,從而在不犧牲性能的情況下有效穩(wěn)定了訓練過程,保障了優(yōu)化過程的順利進行。

CityGaussianV2的并行訓練管線

圖片

CityGaussianV2訓練管線,虛線框為摒棄的算法流程

CityGaussianV2在V1的基礎(chǔ)上進一步優(yōu)化了并行訓練管線,使得訓練和壓縮過程得到統(tǒng)一,刪除了冗余的后處理流程。

具體而言,算法在子模型的并行訓練過程中周期性地遍歷訓練視角集合并計算每個高斯基元的重要性分數(shù):

圖片

圖片

其中為第圖片張訓練視圖的像素集合,圖片為第n個基元的不透明度。以此為基礎(chǔ),重要性低于一定百分比閾值的基元會被刪除,從而降低顯存和存儲的開銷,使得訓練對于低端設(shè)備更友好,也顯著加速了模型總體的收斂速度。

大規(guī)模重建幾何評估協(xié)議

圖片

大規(guī)模場景幾何精度評估流程

CityGaussianV2填補了大規(guī)模場景下幾何評測協(xié)議長期以來的空白,在Tanks and Temple (TnT) 數(shù)據(jù)集的啟發(fā)下,基于點云的目擊頻次統(tǒng)計設(shè)計了針對大規(guī)模場景欠觀測區(qū)域的邊界估計方案。

具體而言,點云真值會首先被初始化為3DGS,在遍歷所有訓練視圖的同時記錄每個點的觀測頻次,觀測頻次低于閾值的點將被濾除;剩余的點將用于估計垂直方向的高度分布范圍,以及地平面內(nèi)的多邊形外接輪廓,二者構(gòu)成的Crop Volume進一步用于TnT形式的指標計算。

這一方案有效規(guī)避了欠觀測區(qū)域重建效果不穩(wěn)定帶來的指標波動,使得大規(guī)模復(fù)雜場景的幾何性能評估更為客觀公正。

實驗與分析

圖片

與主流算法的性能對比

在實驗中,相比于已有算法,CityGaussianV2在幾何精度(精度P,召回率R,綜合指標F1-Score)方面達到了最佳的性能表現(xiàn)。

從可視化結(jié)果中也可以看到,CityGaussianV2的重建結(jié)果具有更準確的細節(jié),完整性也更高。而渲染質(zhì)量方面,CityGaussianV2則達到了和V1相媲美的程度,能夠帶來逼真的瀏覽體驗。此外,CityGaussianV2還能較好地泛化到街道景觀,并且在渲染質(zhì)量和幾何精度上都取得良好的性能結(jié)果。

圖片

渲染質(zhì)量可視化比較

圖片

街拍場景可視化比較

圖片

高斯基元數(shù)量相近情況下的重建性能及訓練開銷比較

在訓練開銷方面,CityGaussianV2克服了2DGS泛化到大規(guī)模復(fù)雜場景下的種種挑戰(zhàn),不僅有效規(guī)避顯存爆炸問題,而且實現(xiàn)了相對于V1顯著的顯存優(yōu)化,同時在訓練用時和幾何質(zhì)量方面大幅領(lǐng)先。針對2DGS的量化壓縮策略也使得大規(guī)模場景的重建結(jié)果能夠以400M左右的開銷存儲下來。

總結(jié)

研究人員致力于大規(guī)模復(fù)雜場景的高效精準重建,并建立了大規(guī)模場景下的幾何精度評估基準,提出的CityGaussianV2以2DGS為基元,消除了其收斂速度和擴展能力方面的問題,并實現(xiàn)了高效的并行訓練和壓縮,從而大大降低了模型的訓練成本。在多個具有挑戰(zhàn)性的數(shù)據(jù)集上的實驗結(jié)果證明了該方法的效率、有效性和魯棒性。

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-02-06 09:20:00

2025-01-02 12:22:09

2020-04-20 15:00:22

DevOps工具代碼

2017-05-17 11:54:18

2020-05-07 09:05:22

電腦Python代碼

2022-04-14 10:22:30

NginxLinux

2021-08-12 11:05:07

C++語言內(nèi)存泄露

2021-03-19 09:55:15

Linuxshell命令

2021-05-08 07:53:33

面試線程池系統(tǒng)

2020-05-07 16:08:28

Linuxshell命令

2020-06-15 08:03:17

大文件OOM內(nèi)存

2018-02-28 16:20:57

中科睿芯

2021-03-16 09:53:35

人工智能機器學習技術(shù)

2022-09-20 14:30:24

腳本工具SQL數(shù)據(jù)庫

2019-12-26 09:38:57

GitHub工具 wxpy

2025-02-28 09:47:36

2021-11-15 10:00:22

模型人工智能NLP

2024-12-12 08:28:11

2024-09-14 12:52:59

個性化定位大模型

2024-09-14 09:29:37

點贊
收藏

51CTO技術(shù)棧公眾號