隨手一拍,高效重建大型3D開放場景,港科廣GraphGS突破傳統(tǒng)重建技術瓶頸|ICLR 2024
從手機隨手拍、汽車行車記錄儀到無人機航拍,如何從海量無序二維圖像快速生成高精度三維場景?
傳統(tǒng)方法依賴精確的相機位姿參數(shù),實際應用成本高昂。港科廣團隊提出全新框架GraphGS,突破技術瓶頸——無需精準相機位姿,僅憑RGB圖像即可實現(xiàn)大規(guī)模開放場景的高效重建和高保真新視角合成,相關論文入選ICLR 2025,代碼即將開源。
技術痛點與突破
傳統(tǒng)方法瓶頸:
現(xiàn)有三維重建技術通常依賴精確的相機位姿參數(shù)和密集視角覆蓋,而實際應用中,由于設備限制或環(huán)境復雜性,獲取高精度位姿和充足視角面臨巨大挑戰(zhàn)。
例如,COLMAP等傳統(tǒng)SfM工具處理千張級圖像需要數(shù)天時間,且容易因動態(tài)物體或重復紋理導致匹配失敗。此外,稀疏視角下3D高斯點易過擬合到有限視角區(qū)域,導致幾何失真和細節(jié)丟失。
GraphGS核心突破:
GraphGS通過創(chuàng)新的空間先驗感知與圖引導優(yōu)化范式,提出三階段解決方案:
- 首先利用數(shù)學策略從無序圖像中快速構建相機拓撲圖
- 其次通過多視角一致性約束強化幾何連貫性
- 最后結合自適應采樣策略動態(tài)優(yōu)化高斯點分布。
該方法在保障精度的同時,將千張圖像的重建時間從數(shù)十小時縮短至數(shù)小時。
方法詳解:
GraphGS的核心在于將復雜的場景重建問題轉化為圖結構優(yōu)化問題。
框架首先通過同心圓近鄰配對和三維象限過濾策略,從海量圖像中智能篩選關鍵匹配對,僅需平面相機位置即可構建連通相機拓撲圖;隨后將相機間的空間關系建模為帶權無向圖,通過多視角光度一致性損失和基于節(jié)點重要性的自適應采樣策略,引導3D高斯點向全局最優(yōu)分布演化。這一過程結合了傳統(tǒng)幾何約束與現(xiàn)代可微分渲染的優(yōu)勢,在保證重建精度的同時顯著提升計算效率。
1. 高效匹配:
傳統(tǒng)方法(如COLMAP)需遍歷所有圖像對(復雜度O(n2)),GraphGS通過數(shù)學策略篩選關鍵幀:
- 同心圓近鄰配對:按距離分層采樣,確定局部與全局關鍵幀,從萬級圖像對中篩選千級關鍵幀,解決COLMAP暴力匹配耗時難題。
- 象限過濾:6位編碼量化相機相對位姿,過濾無效匹配,消除長街景“斷鏈”風險。
2. 相機圖優(yōu)化:
- 多視角一致性約束:構建相機拓撲關系圖,通過多視角一致性損失函數(shù)強化相鄰視角幾何一致性。動態(tài)平衡相鄰視角差異,解決模糊、鬼影問題。
- 自適應采樣:節(jié)點通過介數(shù)中心性動態(tài)調(diào)整采樣頻率,解決稀疏視點導致的偽影問題同時加快3DGS訓練速度。
實測效果:街景、廢墟、噪聲場景全覆蓋
在Waymo、KITTI等自動駕駛數(shù)據(jù)集上,GraphGS在無真值位姿輸入的情況下達到29.43 PSNR和26.98 PSNR,街景重建準確,樹枝紋理、車窗倒影清晰可見。面對Mill-19數(shù)據(jù)集同樣不使用真值位姿,該方法在碎石堆積、墻體斷裂等極端場景下仍能實現(xiàn)高質(zhì)量新視角合成,碎石、斷墻細節(jié)清晰重現(xiàn)。
應用場景:低門檻三維數(shù)字化
任意隨拍視頻,無需真實位姿重建結果展示,左側為GT,右側為重建場景??梢钥吹紾raphGS實現(xiàn)了開放場景重建技術的三重突破:首次在無精確位姿輸入條件下達成工業(yè)級重建精度,將千張圖像處理速度提升至小時級,并支持消費級硬件實現(xiàn)平方公里級場景重建。這項技術不僅降低了三維數(shù)字化的硬件門檻,更為虛擬現(xiàn)實、智慧城市等領域提供了新的基礎設施。
- 手機三維建模: 用戶環(huán)拍建筑、街景,自動生成元宇宙素材。
- 自動駕駛訓練:車載攝像頭數(shù)據(jù)直接生成高清地圖。
- 城市數(shù)字化:無人機航拍公園,高效重建三維檔案。
論文標題:Graph-Guided Scene Reconstruction from Images with 3D Gaussian Splatting
項目主頁:https://3dagentworld.github.io/graphgs/