僅憑RGB圖像實(shí)現(xiàn)戶外場(chǎng)景高精度定位與重建,來(lái)自港科廣團(tuán)隊(duì) | ICRA 25
從自動(dòng)駕駛、機(jī)器人導(dǎo)航,到AR/VR等前沿應(yīng)用,SLAM都是離不開(kāi)的核心技術(shù)之一。
現(xiàn)有基于3D高斯分布(3DGS)的SLAM方法雖在室內(nèi)場(chǎng)景表現(xiàn)出色,但使用僅RGB輸入來(lái)處理無(wú)界的戶外場(chǎng)景仍然面臨挑戰(zhàn):
- 準(zhǔn)確的深度和尺度估計(jì)困難,這影響了姿態(tài)精度和3DGS初始化
- 圖像重疊有限且視角單一,缺乏有效的約束,導(dǎo)致訓(xùn)練難以收斂
為了解決上述挑戰(zhàn),港科廣團(tuán)隊(duì)提出全新解決方案——OpenGS-SLAM。僅憑RGB圖像實(shí)現(xiàn)高精度定位與逼真場(chǎng)景重建。
△OpenGS-SLAM管線示意圖
具體來(lái)說(shuō),研究人員采用了一個(gè)點(diǎn)圖回歸網(wǎng)絡(luò)來(lái)生成幀間一致的點(diǎn)圖。
這些點(diǎn)圖儲(chǔ)存了來(lái)自多個(gè)標(biāo)準(zhǔn)視角的3D結(jié)構(gòu),包含了視角關(guān)系、2D到3D的對(duì)應(yīng)關(guān)系和場(chǎng)景幾何信息。這使得相機(jī)位姿估計(jì)更加穩(wěn)健,有效緩解了預(yù)訓(xùn)練深度網(wǎng)絡(luò)的誤差問(wèn)題。
此外,OpenGS-SLAM將相機(jī)位姿估計(jì)與3DGS渲染集成到一個(gè)端到端可微的管道中。通過(guò)這種方式,實(shí)現(xiàn)了位姿和3DGS參數(shù)的聯(lián)合優(yōu)化,顯著提高了系統(tǒng)的跟蹤精度。
研究人員還設(shè)計(jì)了一種自適應(yīng)比例映射器和動(dòng)態(tài)學(xué)習(xí)率調(diào)整策略,能夠更準(zhǔn)確地將點(diǎn)圖映射到3DGS地圖表示。
值得注意的是,在Waymo數(shù)據(jù)集上的實(shí)驗(yàn)表明,OpenGS-SLAM將追蹤誤差降低至現(xiàn)有3DGS方法的9.8%。研究人員還在新視角合成任務(wù)上建立了一個(gè)新的基準(zhǔn),達(dá)到了最先進(jìn)的結(jié)果。
基于3DGS表示的RGB-only SLAM系統(tǒng)
來(lái)看具體技術(shù)細(xì)節(jié)。
在OpenGS-SLAM的管線示意圖可以看到,每一幀都會(huì)輸入一張RGB圖像用于追蹤。
當(dāng)前幀和上一幀作為圖片對(duì)輸入到Pointmap回歸網(wǎng)絡(luò)進(jìn)行位姿估計(jì),隨后基于當(dāng)前的3D高斯地圖進(jìn)行位姿優(yōu)化。
在關(guān)鍵幀處,系統(tǒng)執(zhí)行地圖更新,并通過(guò)自適應(yīng)尺度映射器(Adaptive Scale Mapper)對(duì)Pointmap進(jìn)行處理,以插入新的3D高斯點(diǎn)。
此外,相機(jī)位姿與3D高斯地圖會(huì)在局部窗口內(nèi)進(jìn)行聯(lián)合優(yōu)化,確保更精準(zhǔn)的追蹤與場(chǎng)景重建。
追蹤
幀間點(diǎn)圖回歸與位姿估計(jì)
之前基于3DGS和NeRF的SLAM工作,主要集中在室內(nèi)和小規(guī)模場(chǎng)景中,其中相機(jī)的運(yùn)動(dòng)幅度較小,視角密集。在這種情況下,NeRF或3DGS可以直接用于優(yōu)化相機(jī)位姿。
然而,戶外場(chǎng)景通常涉及基于車(chē)輛的攝影,特征是運(yùn)動(dòng)幅度較大且視角相對(duì)稀疏。這使得直接優(yōu)化相機(jī)位姿難以收斂。
鑒于點(diǎn)圖包含視角關(guān)系、2D到3D的對(duì)應(yīng)關(guān)系和場(chǎng)景幾何信息,OpenGS-SLAM團(tuán)隊(duì)提出了一種基于幀間點(diǎn)圖回歸網(wǎng)絡(luò)的位姿估計(jì)方法,旨在實(shí)現(xiàn)穩(wěn)健且快速的當(dāng)前幀相機(jī)位姿估計(jì)。
他們利用一個(gè)預(yù)訓(xùn)練的點(diǎn)圖回歸網(wǎng)絡(luò),該網(wǎng)絡(luò)結(jié)合了ViT編碼器、帶有自注意力和交叉注意力層的Transformer解碼器以及一個(gè)MLP回歸頭,生成連續(xù)幀圖像的點(diǎn)圖。特別地,兩個(gè)圖像分支之間的信息共享有助于點(diǎn)圖的正確對(duì)齊。
盡管應(yīng)用點(diǎn)圖可能看起來(lái)有些反直覺(jué),但它能夠在圖像空間中有效表示3D形狀,并且允許在不同視角的射線之間進(jìn)行三角測(cè)量,而不受深度估計(jì)質(zhì)量的限制。隨后,團(tuán)隊(duì)使用穩(wěn)健且廣泛應(yīng)用的RANSAC和PnP來(lái)推斷兩幀之間的相對(duì)姿態(tài),使用這種方法,可以估計(jì)第k幀的位姿為:
。
位姿優(yōu)化
為了實(shí)現(xiàn)精確的相機(jī)位姿追蹤,團(tuán)隊(duì)基于3DGS可微光柵化管道,構(gòu)建了一套可微的相機(jī)位姿優(yōu)化方法。
定義光度損失為:
其中表示每個(gè)像素的可微渲染函數(shù),通過(guò)高斯
和相機(jī)位姿
生成圖像,
表示真實(shí)圖像。光度損失
關(guān)于位姿
的梯度為:
通過(guò)這些步驟,利用渲染函數(shù)的微分,將增量位姿更新與光度損失緊密關(guān)聯(lián)。這一策略使得相機(jī)位姿能夠基于3DGS 渲染結(jié)果進(jìn)行端到端優(yōu)化,從而確保高精度且穩(wěn)定的位姿跟蹤。
3DGS場(chǎng)景表示
研究人員使用3DGS作為場(chǎng)景表示,提出自適應(yīng)尺度映射器(Adaptive Scale Mapper),在關(guān)鍵幀時(shí)為地圖插入新的高斯點(diǎn)。
利用先前獲得的點(diǎn)圖來(lái)映射3D高斯地圖,由于幀間點(diǎn)圖存在尺度不穩(wěn)定的問(wèn)題,研究人員基于點(diǎn)匹配關(guān)系計(jì)算連續(xù)幀之間的相對(duì)尺度變化因子,以確保整個(gè)場(chǎng)景的尺度一致性。
建圖
高斯地圖優(yōu)化
管理一個(gè)局部關(guān)鍵幀窗口,以選擇觀察相同區(qū)域的非冗余關(guān)鍵幀,為后續(xù)的建圖優(yōu)化提供更高效的多視角約束。在每個(gè)關(guān)鍵幀上,通過(guò)聯(lián)合優(yōu)化
窗口中的高斯屬性和相機(jī)位姿來(lái)實(shí)現(xiàn)局部BA。
優(yōu)化過(guò)程仍然通過(guò)最小化光度損失進(jìn)行。為了減少高斯橢球體的過(guò)度拉伸,研究人員采用了各向同性正則化:
高斯地圖優(yōu)化任務(wù)可以總結(jié)為:
自適應(yīng)學(xué)習(xí)率調(diào)整
在經(jīng)典的室內(nèi) SLAM 數(shù)據(jù)集中,相機(jī)通常圍繞小范圍場(chǎng)景運(yùn)動(dòng)并形成閉環(huán),使高斯優(yōu)化的學(xué)習(xí)率隨迭代次數(shù)逐漸衰減。然而,戶外數(shù)據(jù)由前向車(chē)輛相機(jī)捕獲,所經(jīng)過(guò)區(qū)域不會(huì)重訪,因此需要不同的學(xué)習(xí)率衰減策略。
為此,研究人員提出了一種基于旋轉(zhuǎn)角度的自適應(yīng)學(xué)習(xí)率調(diào)整策略:當(dāng)車(chē)輛沿直路行駛時(shí),學(xué)習(xí)率逐步衰減;在遇到坡道或轉(zhuǎn)彎時(shí),動(dòng)態(tài)提升學(xué)習(xí)率,以更有效地優(yōu)化新場(chǎng)景。
首先,計(jì)算當(dāng)前關(guān)鍵幀和上一關(guān)鍵幀之間的旋轉(zhuǎn)矩陣和
,其相對(duì)旋轉(zhuǎn)矩陣為:
接著計(jì)算旋轉(zhuǎn)弧度:
接著將弧度轉(zhuǎn)換為度數(shù)
,并根據(jù)以下公式調(diào)整累計(jì)迭代次數(shù):
當(dāng)旋轉(zhuǎn)角度達(dá)到90度時(shí),累積迭代次數(shù)將被重置。
實(shí)驗(yàn)結(jié)果
如下圖所示,在Waymo數(shù)據(jù)集的無(wú)界戶外場(chǎng)景上,OpenGS-SLAM能渲染高保真的新視角圖片,準(zhǔn)確捕捉車(chē)輛、街道和建筑物的細(xì)節(jié)。相比之下,MonoGS和GlORIE-SLAM存在渲染模糊和失真的問(wèn)題。
如下圖所示,OpenGS-SLAM擁有明顯更優(yōu)的追蹤性能,在面臨大轉(zhuǎn)彎時(shí)也能穩(wěn)定收斂。
精度方面,OpenGS-SLAM在Waymo數(shù)據(jù)集上實(shí)現(xiàn)了新視角合成(NVS)的最佳性能。在追蹤精度方面,與GlORIE-SLAM相當(dāng);而相比同樣基于3DGS的SLAM方法MonoGS,OpenGS-SLAM誤差降低至 9.8%,顯著提升了系統(tǒng)的魯棒性和準(zhǔn)確性。
消融研究結(jié)果顯示,自適應(yīng)學(xué)習(xí)率調(diào)整和自適應(yīng)尺度映射均對(duì)整體性能產(chǎn)生積極影響,而Pointmap回歸網(wǎng)絡(luò)更是本方法的核心支撐,對(duì)系統(tǒng)性能至關(guān)重要。
總結(jié)
OpenGS-SLAM是一種基于3DGS表示的RGB-only SLAM系統(tǒng),適用于無(wú)界的戶外場(chǎng)景。
該方法將點(diǎn)圖回歸網(wǎng)絡(luò)與3DGS表示結(jié)合,確保精確的相機(jī)姿態(tài)跟蹤和出色的新視圖合成能力。
與其他基于3DGS的SLAM系統(tǒng)相比,該方法在戶外環(huán)境中提供了更高的跟蹤精度和魯棒性,使其在實(shí)際應(yīng)用中具有較高的實(shí)用性。
論文鏈接:https://arxiv.org/abs/2502.15633
代碼鏈接:https://github.com/3DAgentWorld/OpenGS-SLAM
官方主頁(yè):https://3dagentworld.github.io/opengs-slam/