自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

浙大最新開源!SplatLoc:基于3D Gaussian實(shí)現(xiàn)精確視覺定位

人工智能 智能汽車
在本文中,我們提出了SplatLoc,這是一種基于3D高斯基元的高效且新穎的視覺定位方法,相比傳統(tǒng)定位方法更適合增強(qiáng)現(xiàn)實(shí)(AR)/虛擬現(xiàn)實(shí)(VR)。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

0. 論文信息

標(biāo)題:SplatLoc: 3D Gaussian Splatting-based Visual Localization for Augmented Reality

作者:Hongjia Zhai, Xiyu Zhang, Boming Zhao, Hai Li, Yijia He, Zhaopeng Cui, Hujun Bao, Guofeng Zhang

機(jī)構(gòu):State Key Lab of CAD & CG, Zhejiang University、RayNeo

原文鏈接:https://arxiv.org/abs/2409.14067

代碼鏈接:https://github.com/zhaihongjia/SplatLoc

1. 摘要

視覺定位在增強(qiáng)現(xiàn)實(shí)(AR)的應(yīng)用中起著重要的作用,它使AR設(shè)備能夠在預(yù)先構(gòu)建的地圖中獲得它們的6自由度姿態(tài),以便在真實(shí)場(chǎng)景中渲染虛擬內(nèi)容。然而,大多數(shù)現(xiàn)有方法不能執(zhí)行新穎的視圖渲染,并且需要大的地圖存儲(chǔ)容量。為了克服這些限制,我們提出了一種有效的視覺定位方法,能夠以較少的參數(shù)進(jìn)行高質(zhì)量的渲染。具體來說,我們的方法利用3D高斯圖元作為場(chǎng)景表示。為了確保用于姿態(tài)估計(jì)的精確的2D-3D對(duì)應(yīng),我們開發(fā)了用于高斯圖元的無偏的3D場(chǎng)景特定描述符解碼器,其從構(gòu)造的特征體中提取。此外,我們介紹了一種顯著的3D標(biāo)志選擇算法,該算法基于顯著性分?jǐn)?shù)選擇合適的圖元子集用于定位。我們進(jìn)一步正則化關(guān)鍵高斯圖元以防止各向異性效應(yīng),這也提高了定位性能。在兩個(gè)廣泛使用的數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,我們的方法獲得了優(yōu)于或相當(dāng)于基于隱式的視覺定位方法的渲染和定位性能。

2. 引言

視覺定位是一項(xiàng)關(guān)鍵技術(shù),它使移動(dòng)設(shè)備或頭戴式顯示器能夠估算相機(jī)相對(duì)于預(yù)建3D地圖的6自由度(6-DoF)姿態(tài)。它在各種增強(qiáng)現(xiàn)實(shí)(AR)應(yīng)用中發(fā)揮著至關(guān)重要的作用。例如,視覺定位方法可以提供AR設(shè)備的全局6-DoF姿態(tài)信息,這些信息可用于在真實(shí)環(huán)境中渲染虛擬內(nèi)容,并促進(jìn)用戶與物理空間的交互。

一般而言,經(jīng)典的視覺定位方法可分為兩類:基于回歸的方法和基于特征的方法。

基于回歸的方法通常使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取圖像的高級(jí)上下文特征,并編碼重建環(huán)境的幾何信息(如絕對(duì)姿態(tài)和場(chǎng)景坐標(biāo))。PoseNet和SCRNet是直接從單個(gè)圖像的提取特征中回歸姿態(tài)或像素3D坐標(biāo)的代表性工作。然而,由于缺乏幾何約束,這些方法在準(zhǔn)確性方面往往落后于基于特征的方法。

基于特征的方法通常預(yù)先構(gòu)建基于結(jié)構(gòu)的場(chǎng)景地圖(例如3D點(diǎn)云模型),并將每個(gè)地圖元素與一個(gè)或多個(gè)3D描述符相關(guān)聯(lián)。這些3D一致描述符通常是通過對(duì)手工特征或基于學(xué)習(xí)的關(guān)鍵點(diǎn)描述符[9, 46](從2D圖像中檢測(cè)得到)執(zhí)行多視圖融合獲得的。查詢圖像中檢測(cè)到的2D點(diǎn)可以與3D描述符進(jìn)行匹配,以獲得用于穩(wěn)健姿態(tài)估計(jì)的2D-3D對(duì)應(yīng)關(guān)系?;谔卣鞯姆椒ǖ亩ㄎ恍阅苓€取決于所提取描述符的可重復(fù)性和區(qū)分能力。然而,受限于場(chǎng)景表示方式,這些經(jīng)典的定位方法無法進(jìn)行逼真的渲染,而這是AR應(yīng)用的重要組成部分。

近年來,神經(jīng)輻射場(chǎng)(NeRF)和3D高斯濺射(3DGS)已成為神經(jīng)隱式場(chǎng)景表示的新范式。這些范式使用隱式表示(例如多層感知器、參數(shù)化編碼)或顯式基本元素(例如點(diǎn)、2D/3D高斯)來表示場(chǎng)景屬性,并在高質(zhì)量渲染和幾何重建方面實(shí)現(xiàn)了令人滿意的性能。得益于可微分的NeRF風(fēng)格體積渲染[16]和基于點(diǎn)的alpha混合,基于神經(jīng)的方法可以在沒有3D監(jiān)督的情況下以端到端的方式進(jìn)行參數(shù)優(yōu)化。一些工作使用神經(jīng)隱式表示來重建場(chǎng)景并進(jìn)行姿態(tài)估計(jì)。iNeRF是第一個(gè)通過最小化查詢圖像與預(yù)訓(xùn)練NeRF模型渲染結(jié)果之間的光度誤差來精煉6-DoF姿態(tài)的工作。NeRF-SCR和LENS是將基于回歸的視覺定位與神經(jīng)輻射場(chǎng)相結(jié)合的代表性工作。它們訓(xùn)練一個(gè)特定場(chǎng)景的NeRF模型來合成覆蓋整個(gè)場(chǎng)景空間的高質(zhì)量新視圖,從而為它們的場(chǎng)景坐標(biāo)回歸網(wǎng)絡(luò)優(yōu)化提供額外的訓(xùn)練數(shù)據(jù)。同樣,由于缺乏幾何約束,這些NeRF輔助的回歸方法的定位性能也不具備競(jìng)爭(zhēng)力。為了施加幾何約束,基于特征的方法PNeRFLoc使用顯式結(jié)構(gòu)表示場(chǎng)景,并將地圖中的每個(gè)點(diǎn)與基于學(xué)習(xí)的描述符相關(guān)聯(lián)。PNeRFLoc能夠?qū)崿F(xiàn)更好的定位性能和泛化能力。然而,與傳統(tǒng)基于特征的方法一樣,PNeRFLoc需要顯式存儲(chǔ)逐點(diǎn)特征,這會(huì)導(dǎo)致大量內(nèi)存使用,對(duì)于存儲(chǔ)有限的移動(dòng)設(shè)備而言不切實(shí)際。

為了克服上述限制,我們提出了一種高效且新穎的視覺定位方法,該方法以更少的模型參數(shù)實(shí)現(xiàn)了更好的性能,適用于定位和高質(zhì)量新視圖渲染。具體而言,為了減少模型參數(shù),我們不顯式存儲(chǔ)逐點(diǎn)描述符。相反,我們從多視圖2D特征圖中構(gòu)建特征體,并將其提煉為特定場(chǎng)景的3D特征解碼器,從而可以避免由alpha混合引入的高斯基本元素的描述符偏差。然后,我們提出了一種高效的顯著3D地標(biāo)選擇算法,以減少由大量高斯基本元素引起的2D-3D匹配的計(jì)算開銷。最后,我們對(duì)關(guān)鍵高斯基本元素進(jìn)行位置和縮放正則化,以減少3D中心偏移。

3. 效果展示

我們提出了SplatLoc,一種為增強(qiáng)現(xiàn)實(shí)設(shè)計(jì)的高效新穎的視覺定位方法。如圖所示,我們的系統(tǒng)利用單目RGB-D幀,使用3D高斯圖元來重建場(chǎng)景。此外,利用我們學(xué)習(xí)的無偏3D描述符場(chǎng),我們通過精確的2D-3D特征匹配實(shí)現(xiàn)了6-DoF相機(jī)姿態(tài)估計(jì)。我們展示了我們的系統(tǒng)的潛在AR應(yīng)用,例如虛擬內(nèi)容插入和物理碰撞模擬。我們用紅框突出顯示虛擬對(duì)象。

圖片

4. 主要貢獻(xiàn)

我們提出的方法的具體貢獻(xiàn)總結(jié)如下:

? 我們提出了一種高效且新穎的視覺定位方法,該方法基于3D高斯基本元素,能夠以更少的參數(shù)實(shí)現(xiàn)精確的定位性能和高質(zhì)量、快速的渲染。

? 我們引入了一種無偏的3D描述符學(xué)習(xí)策略,用于精確匹配2D關(guān)鍵點(diǎn)和3D高斯基本元素,使用一個(gè)特定場(chǎng)景的3D特征解碼器從多視圖特征圖中回歸特征體。

? 我們開發(fā)了一種有效的顯著3D地標(biāo)選擇算法,以減少用于定位的基本元素?cái)?shù)量。此外,為了減輕由光度渲染損失引起的高斯基本元素中心偏移,我們對(duì)關(guān)鍵高斯基本元素的位置和尺度應(yīng)用了正則化。

? 我們進(jìn)行了大量實(shí)驗(yàn),證明了所提出方法在視覺定位和高質(zhì)量新視圖渲染方面的先進(jìn)性和可比性能。

5. 方法

重建過程。我們逐步初始化高斯基元,每個(gè)基元都與位置μ、旋轉(zhuǎn)q、尺度s、不透明度σ、顏色c以及3D地標(biāo)分?jǐn)?shù)a相關(guān)聯(lián)。對(duì)于關(guān)鍵高斯基元,我們執(zhí)行軟等軸性和尺度正則化,以減輕結(jié)果的非等軸性。利用顏色損失Lc、深度損失Ld、3D地標(biāo)損失Lm和正則化損失Lreg,通過可微光柵化優(yōu)化每個(gè)基元的屬性。

圖片

有偏和無偏3D描述符場(chǎng)學(xué)習(xí)的說明。(a) 以往工作[44, 48]中的有偏3D特征優(yōu)化,它們使用alpha混合來獲得2D混合特征。(b) 我們的無偏3D特征學(xué)習(xí)方案,直接從由多視圖特征圖構(gòu)建的特征體中學(xué)習(xí)3D特征解碼器。

圖片

我們無偏3D基元描述符學(xué)習(xí)的流程。我們首先基于2D卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型[9]對(duì)圖像進(jìn)行編碼,以獲得多視圖特征圖,并根據(jù)深度和姿態(tài)信息構(gòu)建3D場(chǎng)景特征體。為了增強(qiáng)3D特征解碼器的表征能力,我們使用多分辨率參數(shù)編碼來輔助3D場(chǎng)景特定描述符的學(xué)習(xí)。此外,我們僅對(duì)場(chǎng)景表面進(jìn)行描述符采樣,以實(shí)現(xiàn)有效的知識(shí)蒸餾。

圖片

6. 實(shí)驗(yàn)結(jié)果

圖片

7. 總結(jié) & 未來工作

在本文中,我們提出了SplatLoc,這是一種基于3D高斯基元的高效且新穎的視覺定位方法,相比傳統(tǒng)定位方法更適合增強(qiáng)現(xiàn)實(shí)(AR)/虛擬現(xiàn)實(shí)(VR)。具體而言,為了壓縮用于定位的場(chǎng)景模型,我們?yōu)橹亟ǖ母咚够獙W(xué)習(xí)了一個(gè)無偏3D描述符場(chǎng),這比以往的alpha混合方法更準(zhǔn)確。然后,我們提出了一種顯著的3D地標(biāo)選擇算法,根據(jù)高斯基元的顯著性分?jǐn)?shù)選擇更具信息量的基元進(jìn)行視覺定位,這可以減少移動(dòng)設(shè)備的內(nèi)存和運(yùn)行時(shí)間需求。此外,我們?yōu)殛P(guān)鍵高斯基元提出了一個(gè)有效的正則化項(xiàng),以避免非等軸形狀并減少幾何誤差,從而可以提高定位性能的穩(wěn)定性。在兩個(gè)常用數(shù)據(jù)集上的大量實(shí)驗(yàn)證明了我們所提系統(tǒng)的有效性和實(shí)用性。

目前,我們提出的方法存在兩個(gè)局限性。第一個(gè)是我們需要深度信息或稀疏點(diǎn)云來重建場(chǎng)景。我們的方法基于3DGS,該方法需要點(diǎn)云來初始化每個(gè)高斯基元的位置。第二個(gè)是我們的方法不能用于大型室外場(chǎng)景,因?yàn)檫@會(huì)增加參數(shù)數(shù)量。在未來,我們將嘗試使用視覺基礎(chǔ)模型(例如DepthAnything)來估計(jì)RGB圖像的深度,這可以視為替代深度傳感器的先驗(yàn),并指導(dǎo)場(chǎng)景重建過程。此外,我們考慮使用分層表示方法來擴(kuò)展我們的定位方法,以適用于大型室外場(chǎng)景。

責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
相關(guān)推薦

2023-12-10 15:17:59

開源模型3D

2024-12-23 15:46:59

2020-02-07 16:31:39

開源技術(shù) 趨勢(shì)

2024-01-11 09:55:00

AI訓(xùn)練

2022-05-23 10:26:10

人工智能機(jī)器學(xué)習(xí)機(jī)器視覺

2012-08-13 17:11:37

Silverlight

2024-03-06 14:57:13

火山引擎

2022-12-16 09:44:39

3D智能

2023-05-03 09:01:41

CanvasWebGL

2024-05-16 09:24:17

3D技術(shù)

2020-08-26 10:37:21

阿里3D

2013-11-21 19:36:56

暢游游戲引擎Genesis-3D

2012-02-27 10:00:50

HTML 5

2012-06-16 16:57:52

WebGL

2024-07-03 14:29:38

2023-06-02 10:33:35

2021-09-14 10:11:46

谷歌3D舞蹈生成模型FACT

2021-12-20 14:43:54

Goxel3D建模Linux

2011-05-26 10:55:39

2024-01-26 10:02:51

自動(dòng)駕駛3D
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)