自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="16nzt"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

解鎖SLAM新紀元！基于NeRF和3D GS方法綜述

作者：3D視覺之心 2024-02-29 09:38:13

人工智能智能汽車

盡管NeRF及其變體有可能捕捉場景的3D幾何結(jié)構，但這些模型是在神經(jīng)網(wǎng)絡的權重中隱含定義的。通過3D網(wǎng)格獲得場景的顯式表示對于3D重建應用是可取的。

本文經(jīng)自動駕駛之心公眾號授權轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

寫在前面&筆者的個人理解

在過去的二十年里，SLAM領域的研究經(jīng)歷了重大的發(fā)展，突出了其在實現(xiàn)未知環(huán)境的自主探索方面的關鍵作用。這種演變從手工制作的方法到深度學習時代，再到最近專注于神經(jīng)輻射場（NeRFs）和3D高斯?jié)姙R（3DGS）表示的發(fā)展。我們意識到越來越多的研究和缺乏對該主題的全面調(diào)查，本文旨在通過輻射場的最新進展，首次全面概述SLAM的進展。它揭示了背景、進化路徑、固有優(yōu)勢和局限性，并作為突出動態(tài)進展和具體挑戰(zhàn)的基本參考。

相關背景

現(xiàn)有SLAM綜述回顧

SLAM有了顯著的增長，誕生了各種各樣的綜合論文。在早期階段，達蘭特-懷特和貝利介紹了SLAM問題的概率性質(zhì)，并強調(diào)了關鍵方法。Grisetti等人進一步深入研究了基于圖的SLAM問題，強調(diào)了它在未知環(huán)境中導航的作用。在視覺SLAM領域，Yousif概述了定位和映射技術，結(jié)合了視覺里程計和SLAM的基本方法和進展。多機器人系統(tǒng)的出現(xiàn)使Saeedi和Clark回顧了最先進的方法，重點關注多機器人SLAM的挑戰(zhàn)和解決方案。

在現(xiàn)有文獻中，出現(xiàn)了兩種主要的SLAM策略，即frame-to-frame和frame-to-model跟蹤方法。通常，前一種策略用于實時系統(tǒng)，通常涉及通過閉環(huán)（LC）或全局束調(diào)整（BA）對估計的姿態(tài)進行進一步優(yōu)化，而后一種策略從重建的3D模型中估計相機姿態(tài)，通常避免進一步優(yōu)化，但導致對大場景的可擴展性較低。這些策略構成了我們即將深入研究的方法論的基礎。

雖然現(xiàn)有的調(diào)查涵蓋了傳統(tǒng)的和基于深度學習的方法，但最近的文獻缺乏對SLAM技術前沿的全面探索，這些前沿植根于輻射領域的最新進展。

圖2展示了輻射場的三種表達形式

輻射場理論的演進

基于神經(jīng)場的表面重建

盡管NeRF及其變體有可能捕捉場景的3D幾何結(jié)構，但這些模型是在神經(jīng)網(wǎng)絡的權重中隱含定義的。通過3D網(wǎng)格獲得場景的顯式表示對于3D重建應用是可取的。從NeRF開始，實現(xiàn)粗略場景幾何的基本方法是對MLP預測的密度進行閾值設置。更高級的解決方案探討了三種主要表示形式。

占用情況。該表示通過用學習的離散函數(shù)o（x）∈{0,1}代替沿射線的α值αi，對自由空間和占用空間進行建模。具體而言，通過運行行進立方體算法來估計占有概率∈[0，1]，并獲得表面。

符號距離函數(shù)（SDF）。場景幾何體的另一種方法是從任意點到最近曲面的符號距離，在對象內(nèi)部產(chǎn)生負值，在對象外部產(chǎn)生正值。NeuS是第一個重新訪問NeRF體積渲染引擎的人，用MLP預測SDF為f(r(t))，并用ρ(t)代替α，從SDF推導如下：

截斷有符號距離函數(shù)（TSDF）。最后，使用MLP預測截斷的SDF允許在渲染過程中消除任何SDF值離單個表面太遠的貢獻。像素顏色是作為沿射線采樣的顏色的加權和獲得的：

3D Gaussian Splatting

3DGS由Kerbl于2023年推出，是一種用于高效、高質(zhì)量渲染3D場景的顯式輻射場技術。與傳統(tǒng)的顯式體積表示（如體素網(wǎng)格）不同，它提供了一種連續(xù)而靈活的表示，用于根據(jù)可微分的3D高斯形狀基元對3D場景進行建模。這些基元用于參數(shù)化輻射場，并可以進行渲染以生成新的視圖。此外，與依賴于計算昂貴的體積射線采樣的NeRF相比，3DGS通過基于瓦片的光柵化器實現(xiàn)實時渲染。這種概念上的差異在圖3中突出顯示。這種方法在不依賴神經(jīng)組件的情況下提供了改進的視覺質(zhì)量和更快的訓練，同時也避免了在空白空間中進行計算。更具體地說，從具有已知相機姿勢的多視圖圖像開始，3DGS學習一組3D高斯。這允許將單個高斯基元的空間影響緊湊地表示為：

相反對于優(yōu)化，該過程從SfM點云或隨機值的參數(shù)初始化開始，然后使用L1和D-SSIM損失函數(shù)對GT和渲染視圖進行隨機梯度下降（SGD）。此外，周期性自適應致密化通過調(diào)整具有顯著梯度的點和移除低不透明度點來處理欠重建和過重建，優(yōu)化場景表示并減少渲染錯誤。

數(shù)據(jù)集

本節(jié)總結(jié)了最近SLAM方法中常用的數(shù)據(jù)集，涵蓋了室內(nèi)和室外環(huán)境中的各種屬性，如傳感器、GT準確性和其他關鍵因素。圖4展示了來自不同數(shù)據(jù)集的定性示例，這些示例將在剩余部分中介紹。

TUM RGB-D數(shù)據(jù)集包括帶有注釋的相機軌跡的RGB-D序列，使用兩個平臺記錄：手持和機器人，提供不同的運動范圍。該數(shù)據(jù)集有39個序列，其中一些帶有循環(huán)閉包。核心元素包括來自微軟Kinect傳感器的彩色和深度圖像，以30赫茲和640×480分辨率拍攝。GT軌跡來源于一個運動捕捉系統(tǒng)，該系統(tǒng)有八臺高速攝像機，工作頻率為100赫茲。數(shù)據(jù)集的多功能性通過典型辦公環(huán)境和工業(yè)大廳中的各種軌跡得到了證明，包括不同的平移和角速度。

ScanNet數(shù)據(jù)集提供了真實世界室內(nèi)RGB-D采集的集合，其中包括707個獨特空間中1513次掃描的250萬張圖像。特別地，它包括估計的校準參數(shù)、相機姿態(tài)、3D表面重建、紋理網(wǎng)格、對象級別的詳細語義分割以及對齊的CAD模型。

開發(fā)過程包括創(chuàng)建一個用戶友好的捕獲管道，使用定制的RGB-D捕獲設置，將結(jié)構傳感器連接到iPad等手持設備上。隨后的離線處理階段導致了全面的3D場景重建，包括可用的6-DoF相機姿勢和語義標簽。請注意，ScanNet中的相機姿勢源自BundleFusion系統(tǒng)，該系統(tǒng)可能不如TUM RGB-D等替代系統(tǒng)準確。

Replica數(shù)據(jù)集具有18個照片級真實感3D室內(nèi)場景，具有密集網(wǎng)格、HDR紋理、語義數(shù)據(jù)和反射表面。它跨越不同的場景類別，包括88個語義類，并結(jié)合了單個空間的6次掃描，捕捉不同的家具布置和時間快照。重建涉及定制的RGB-D捕捉設備，該設備具有同步IMU、RGB、IR和廣角灰度傳感器，通過6個自由度（DoF）姿勢準確融合原始深度數(shù)據(jù)。盡管原始數(shù)據(jù)是在現(xiàn)實世界中捕獲的，但用于SLAM評估的數(shù)據(jù)集部分是由重建過程中產(chǎn)生的精確網(wǎng)格綜合生成的。因此，合成序列缺乏真實世界的特性，如鏡面反射高光、自動曝光、模糊等。

KITTI數(shù)據(jù)集是評估雙目、光流、視覺里程計/SLAM算法等的流行基準。該數(shù)據(jù)集來自一輛配備了雙目攝像頭、Velodyne LiDAR、GPS和慣性傳感器的汽車，包含來自61個代表自動駕駛場景的場景的42000個立體對和LiDAR點云。KITTI里程計數(shù)據(jù)集包含22個激光雷達掃描序列，有助于評估使用激光雷達數(shù)據(jù)的里程計方法。

Newer College數(shù)據(jù)集包括在牛津新學院周圍2.2公里步行過程中采集的傳感器數(shù)據(jù)。它包括來自立體慣性相機、帶慣性測量的多波束3D激光雷達和三腳架安裝的勘測級激光雷達掃描儀的信息，生成了一張包含約2.9億個點的詳細3D地圖。該數(shù)據(jù)集為每次激光雷達掃描提供了6 DoFGT姿態(tài)，精確到約3厘米。該數(shù)據(jù)集涵蓋了各種環(huán)境，包括建筑空間、開放區(qū)域和植被區(qū)。

其他數(shù)據(jù)集

此外，在最近的SLAM研究中，我們提請注意利用率較低的替代數(shù)據(jù)集。

ETH3D-SLAM數(shù)據(jù)集包括來自定制相機設備的視頻，適用于評估視覺慣性單目、雙目和RGB-D SLAM。它具有56個訓練數(shù)據(jù)集、35個測試數(shù)據(jù)集和5個使用GTSfM技術獨立捕獲的訓練序列。

EuRoC MAV數(shù)據(jù)集為微型飛行器提供同步立體圖像、IMU和準確的GT。它支持在各種條件下進行視覺慣性算法設計和評估，包括具有毫米精度GT的工業(yè)環(huán)境和用于3D環(huán)境重建的房間。

為重新定位性能評估而創(chuàng)建的7場景數(shù)據(jù)集使用Kinect以640×480的分辨率進行記錄。GT姿勢是通過KinectFusion獲得的。來自不同用戶的序列被分為兩組——一組用于模擬關鍵幀采集，另一組用于誤差計算。該數(shù)據(jù)集帶來了諸如鏡面反射、運動模糊、照明條件、平坦表面和傳感器噪聲等挑戰(zhàn)。

ScanNet++數(shù)據(jù)集包括460個高分辨率3D室內(nèi)場景重建、密集語義注釋、單反圖像和iPhone RGB-D序列。使用亞毫米分辨率的高端激光掃描儀拍攝，每個場景都包括1000多個語義類的注釋，解決標簽歧義，并為3D語義場景理解和新穎視圖合成引入新的基準。

SLAM

本節(jié)介紹利用輻射場表示的最新進展的最新SLAM系統(tǒng)。這些論文以基于方法的分類法進行組織，按其方法進行分類，為讀者提供清晰有序的展示。本節(jié)首先對RGB-D、RGB和激光雷達方法進行基本分類，為特定子類別的發(fā)展奠定基礎。每個類別都按發(fā)表日期列出了在會議/期刊上正式發(fā)表的論文，然后是arXiv按其初始預印本日期排列的預印本。

為了全面了解，表1提供了調(diào)查方法的詳細概述。此表提供了深入的摘要，突出顯示了每種方法的關鍵功能，并包括對項目頁面或源代碼的引用（只要可用）。有關更多細節(jié)或方法細節(jié)，請參閱原始論文。

RGB-D SLAM

在這里，我們重點關注密集SLAM技術使用RGB-D相機，捕捉彩色圖像和逐像素的深度信息的環(huán)境。這些技術分為不同的類別：NeRF風格的SLAM解決方案和基于3D高斯飛濺表示的替代方案。從這兩種方法派生的專門解決方案包括用于大型場景的基于子映射的SLAM方法、處理語義的框架以及為動態(tài)場景量身定制的框架。在這種分類中，一些技術通過不確定性來評估可靠性，而另一些技術則探索集成其他傳感器，如基于事件的相機。

NeRF-style RGB-D SLAM

隱式神經(jīng)表示的最新進展已經(jīng)實現(xiàn)了精確和密集的3D表面重建。這導致了源自NeRF或受其啟發(fā)的新型SLAM系統(tǒng)，最初設計用于已知相機姿勢的離線使用。在本節(jié)中，我們描述了這些密集神經(jīng)VSLAM方法，分析了它們的主要特征，并對它們的優(yōu)勢和劣勢進行了清晰的概述。

iMAP。這項工作標志著首次嘗試利用SLAM的隱式神經(jīng)表示。這一突破性的成就不僅突破了SLAM的界限，而且為該領域確立了新的方向。特別地，iMAP展示了MLP動態(tài)創(chuàng)建特定場景的隱式3D模型的潛力。

NICE-SLAM。與iMAP使用單個MLP作為場景表示不同，NICE-SLAM采用了集成多層次局部數(shù)據(jù)的分層策略。這種方法有效地解決了諸如過度平滑的重建和較大場景中的可擴展性限制等問題。

Vox Fusion。這項工作將傳統(tǒng)的體積融合方法與神經(jīng)隱式表示相結(jié)合。具體而言，它利用基于體素的神經(jīng)隱式表面表示來編碼和優(yōu)化每個體素內(nèi)的場景。雖然與NICE-SLAM有相似之處，但其獨特之處在于采用了基于八叉樹的結(jié)構來實現(xiàn)動態(tài)體素分配策略。

ESLAM。ESLAM的核心是實現(xiàn)了與傳統(tǒng)體素網(wǎng)格不同的多尺度軸對齊特征平面。這種方法通過二次縮放優(yōu)化內(nèi)存使用，與基于體素的模型所表現(xiàn)出的三次增長形成對比。

其他工作如Co-SLAM、GO-SLAM、Point-SLAM、ToF-SLAM、ADFP、MLM-SLAM、Plenoxel-SLAM、Structerf-SLAM、iDF-SLAM、NeuV-SLAM可以參考具體論文。

3DGS-style RGB-D SLAM

在這里，我們概述了使用基于3D高斯飛濺的顯式體積表示來開發(fā)SLAM解決方案的開創(chuàng)性框架。這些方法通常利用3DGS的優(yōu)勢，例如與其他現(xiàn)有場景表示相比，更快、更真實的渲染。它們還提供了通過添加更多高斯基元、完全利用每像素密集光度損失和直接參數(shù)梯度流來提高地圖容量的靈活性，以促進快速優(yōu)化。到目前為止，3DGS表示主要用于離線系統(tǒng)，該離線系統(tǒng)致力于從已知相機姿勢合成新的視圖。在下一節(jié)中，我們將介紹開創(chuàng)性的SLAM方法，這些方法能夠同時優(yōu)化場景幾何結(jié)構和相機姿態(tài)。

GS-SLAM。GS-SLAM通過利用3D高斯作為表示，結(jié)合飛濺渲染技術，引入了一種范式轉(zhuǎn)變。與依賴神經(jīng)隱式表示的方法相比，GS-SLAM通過采用一種新方法，利用3D高斯以及不透明度和球面諧波來封裝場景幾何結(jié)構和外觀，從而大大加速了地圖優(yōu)化和重新渲染，如圖6所示。

Photo-SLAM。這項工作將顯式幾何特征和隱式紋理表示集成在超基元地圖中。該方法結(jié)合了ORB特征、旋轉(zhuǎn)、縮放、密度和球面諧波系數(shù)，以優(yōu)化相機姿態(tài)和貼圖精度，同時最大限度地減少光度損失。

SplaTAM。這種方法將場景表示為簡化的3D高斯圖的集合，從而實現(xiàn)高質(zhì)量的彩色和深度圖像渲染。SLAM管道包括幾個關鍵步驟：相機跟蹤-高斯稠密化-地圖更新。

GSSLAM。該系統(tǒng)采用3D高斯飛濺作為其唯一的表示，使用單個移動的RGB或RGB-D相機進行在線3D重建。該框架包括幾個關鍵組件，如跟蹤和相機姿態(tài)優(yōu)化、高斯形狀驗證和正則化、建圖和關鍵幀以及資源分配和修剪。

高斯SLAM。該框架采用了涉及地圖構建和優(yōu)化的管道，創(chuàng)建由單獨的3D高斯點云表示的單獨的子地圖，以防止災難性遺忘并保持計算效率。

Submaps-based SLAM

在這一類別中，我們專注于解決災難性遺忘的挑戰(zhàn)以及先前討論的受密集輻射場啟發(fā)的SLAM系統(tǒng)在大型環(huán)境中面臨的適用性問題的方法。

MeSLAM。MeSLAM引入了一種新的SLAM算法，用于具有最小內(nèi)存占用的大規(guī)模環(huán)境映射。這是通過將神經(jīng)隱式映射表示與新的網(wǎng)絡分布策略相結(jié)合來實現(xiàn)的。具體而言，通過使用分布式MLP網(wǎng)絡，全局映射模塊有助于將環(huán)境分割成不同的區(qū)域，并在重建過程中協(xié)調(diào)這些區(qū)域的縫合。

CP-SLAM。這項工作是一種協(xié)作的神經(jīng)隱式SLAM方法，其特點是包含前端和后端模塊的統(tǒng)一框架。其核心是利用與關鍵幀相關的基于神經(jīng)點的3D場景表示。這允許在姿勢優(yōu)化過程中進行無縫調(diào)整，并增強協(xié)作建圖功能。

NISB地圖。NISB Map采用多個小型MLP網(wǎng)絡，遵循iMAP的設計，以緊湊的空間塊表示大規(guī)模環(huán)境。與具有深度先驗的側(cè)面稀疏光線采樣一起，這實現(xiàn)了低內(nèi)存使用率的可擴展室內(nèi)映射。

多個SLAM。本文介紹了一種新的協(xié)作隱式SLAM框架來解決災難性遺忘問題。通過使用多個SLAM代理來處理塊中的場景，它最大限度地減少了軌跡和建圖錯誤。

MIPS-Fusion。如圖8所示，這項工作引入了一種用于在線密集RGB-D重建的分治映射方案，使用了一種無網(wǎng)格的純神經(jīng)方法，該方法具有增量分配和多個神經(jīng)子映射的動態(tài)學習。

NEWTON。大多數(shù)神經(jīng)SLAM系統(tǒng)使用具有單個神經(jīng)場模型的以世界為中心的地圖表示。然而，這種方法在捕捉動態(tài)和實時場景方面面臨挑戰(zhàn)，因為它依賴于準確和固定的先前場景信息。這在廣泛的映射場景中可能特別有問題。

NGEL-SLAM。該系統(tǒng)利用兩個模塊，即跟蹤和映射模塊，將ORB-SLAM3的魯棒跟蹤能力與多個隱式神經(jīng)映射提供的場景表示相結(jié)合。

PLGSLAM。本工作中提出的漸進式場景表示方法將整個場景劃分為多個局部場景表示，允許對更大的室內(nèi)場景進行可擴展性，并提高魯棒性。

Loopy-SLAM。該系統(tǒng)利用子地圖形式的神經(jīng)點云進行局部建圖和跟蹤。該方法采用幀到模型跟蹤和數(shù)據(jù)驅(qū)動的基于點的子地圖生成方法，在場景探索過程中基于相機運動動態(tài)生長子地圖。

Semantic RGB-D SLAM

作為SLAM系統(tǒng)運行，這些方法本身包括映射和跟蹤過程，同時還包含語義信息以增強環(huán)境的真實性。這些框架針對對象識別或語義分割等任務量身定制，為場景分析提供了一種整體方法——識別和分類對象和/或有效地將圖像區(qū)域分類為特定的語義類（如桌子、椅子等）。

iLabel。該框架是一個用于交互理解和分割3D場景的新穎系統(tǒng)。它使用神經(jīng)場表示將三維坐標映射到顏色、體積密度和語義值。

FR-Fusion。該方法將神經(jīng)特征融合系統(tǒng)無縫集成到iMAP框架中。通過結(jié)合2D圖像特征提取器（基于EfficientNet或DINO）并使用潛在體積繪制技術增強iMAP，該系統(tǒng)可以有效地融合高維特征圖，同時降低計算和內(nèi)存需求。

其他算法如vMap、NIDS-SLAM、SNI-SLAM、DNS SLAM、SGS-SLAM可以參考具體論文。

SLAM in Dynamic Environments

到目前為止，大多數(shù)SLAM方法都是基于以剛性、不移動物體為特征的靜態(tài)環(huán)境的基本假設。雖然這些技術在靜態(tài)場景中表現(xiàn)良好，但它們在動態(tài)環(huán)境中的性能面臨重大挑戰(zhàn)，限制了它們在現(xiàn)實世界場景中的適用性。因此，在本節(jié)中，我們概述了專門為應對動態(tài)環(huán)境中精確映射和定位估計的挑戰(zhàn)而設計的方法。

DN-SLAM。這項工作集成了各種組件，以解決動態(tài)環(huán)境中準確位置估計和地圖一致性方面的挑戰(zhàn)。DN-SLAM利用ORB特征進行對象跟蹤，并采用語義分割、光流和分段任意模型（SAM），有效地識別和隔離場景中的動態(tài)對象，同時保留靜態(tài)區(qū)域，增強SLAM性能。具體而言，該方法包括利用語義分割進行對象識別，通過SAM細化動態(tài)對象分割，提取靜態(tài)特征，以及使用NeRF生成密集地圖。

DynaMoN。該框架建立在DROID-SLAM的基礎上，通過運動和語義分割對其進行了增強。該方法將這些元素集成到密集BA過程中，利用運動和分割掩碼對優(yōu)化過程進行加權，并忽略潛在的動態(tài)像素。通過預先訓練的DeepLabV3網(wǎng)絡，語義分割有助于細化已知對象類的掩碼，并結(jié)合了基于運動的過濾來處理未知的動態(tài)元素。

其他算法如DDN-SLAM、NID-SLAM可以參考具體論文。

不確定性估計

分析輸入數(shù)據(jù)中的不確定性，尤其是深度傳感器噪聲，對于魯棒系統(tǒng)處理至關重要。這包括過濾不可靠的傳感器測量值或?qū)⑸疃炔淮_定性納入優(yōu)化過程等任務。總體目標是防止SLAM過程中可能嚴重影響系統(tǒng)準確性的不準確。同時，承認神經(jīng)模型重建中的內(nèi)在不確定性為評估系統(tǒng)可靠性增加了一個關鍵層，尤其是在具有挑戰(zhàn)性的場景中。本節(jié)標志著神經(jīng)SLAM不確定性探索的開始，強調(diào)將認知（基于知識）和預測（基于環(huán)境噪聲）不確定性信息作為提高SLAM系統(tǒng)整體性能的重要組成部分。

OpenWorld-SLAM。這項工作改進了NICE-SLAM。解決其非實時執(zhí)行、有限的軌跡估計以及由于依賴預定義網(wǎng)格而適應新場景的挑戰(zhàn)。為了增強在開放世界場景中的適用性，這項工作引入了新的改進，包括從RGB-D圖像中集成深度不確定性以進行局部精度細化，來自慣性測量單元（IMU）的運動信息利用以及用于不同環(huán)境處理的有限前景網(wǎng)格和背景球面網(wǎng)格的NeRF的劃分。這些增強提高了跟蹤精度和地圖表示，同時保持了基于NeRF的SLAM優(yōu)勢。這項工作強調(diào)了對支持基于NeRF的SLAM的專業(yè)數(shù)據(jù)集的需求，特別是那些提供戶外網(wǎng)格模型、運動數(shù)據(jù)和特征良好的傳感器的數(shù)據(jù)集。

UncLe-SLAM。UncLe-SLAM在飛行中聯(lián)合學習場景幾何和任意深度的不確定性。這是通過采用與輸入深度傳感器相關聯(lián)的拉普拉斯誤差分布來實現(xiàn)的。與缺乏深度不確定性建模集成的現(xiàn)有方法不同，UncLeSLAM采用了一種學習范式，根據(jù)不同圖像區(qū)域的估計置信度，自適應地為其分配權重，而無需地面實況深度或3D。

Event-based SLAM

雖然輻射場啟發(fā)的VSLAM方法在精確的密集重建中具有優(yōu)勢，但涉及運動模糊和照明變化的實際場景帶來了重大挑戰(zhàn)，影響了映射和跟蹤過程的穩(wěn)健性。在本節(jié)中，我們將探討一類系統(tǒng)，這些系統(tǒng)利用事件攝像機捕獲的數(shù)據(jù)來利用其動態(tài)范圍和時間分辨率。由給定像素的亮度對數(shù)變化觸發(fā)的異步事件生成機制在低延遲和高時間分辨率方面顯示出潛在的優(yōu)勢。這有可能提高神經(jīng)VSLAM在極端環(huán)境中的魯棒性、效率和準確性。盡管基于事件相機的SLAM系統(tǒng)仍處于研究的早期階段，但我們相信，正在進行的研究有望克服傳統(tǒng)基于RGB的方法的局限性。

EN-SLAM。該框架通過隱式神經(jīng)范式將事件數(shù)據(jù)與RGB-D無縫集成，引入了一種新的范式轉(zhuǎn)變。它旨在克服現(xiàn)有SLAM方法在以運動模糊和照明變化等問題為特征的非理想環(huán)境中操作時遇到的挑戰(zhàn)。

RGB-based SLAM

本節(jié)探討RGB密集SLAM方法，該方法僅依賴于彩色圖像的視覺提示，從而消除了對深度傳感器的需求，這些傳感器通常是光敏的、有噪聲的，在大多數(shù)情況下僅適用于室內(nèi)。因此，使用單目或雙目相機的僅RGB SLAM在RGB-D相機不切實際或成本高昂的情況下越來越受到關注，使RGB相機成為適用于更廣泛的室內(nèi)和室外環(huán)境的更可行的解決方案。然而，這些方法經(jīng)常面臨挑戰(zhàn)，特別是在單目設置中，因為它們?nèi)狈缀蜗闰?，導致深度模糊問題。因此，由于較少的約束優(yōu)化，它們往往表現(xiàn)出較慢的優(yōu)化收斂。

NeRF-style RGB SLAM

DIM-SLAM。本文介紹了第一個使用神經(jīng)隱式映射表示的RGB SLAM系統(tǒng)。與NICE-SLAM類似，它結(jié)合了可學習的多分辨率體積編碼和用于深度和顏色預測的MLP解碼器。該系統(tǒng)動態(tài)學習場景特征和解碼器。此外，DIM-SLAM通過跨尺度融合特征，在一步中優(yōu)化占用率，提高了優(yōu)化速度。值得注意的是，它引入了受多視圖立體啟發(fā)的光度扭曲損失，通過解決與視圖相關的強度變化，加強了合成圖像和觀測圖像之間的對齊，以提高準確性。與其他RGB-D方法類似，DIM-SLAM利用并行跟蹤和映射線程來同時優(yōu)化相機姿勢和隱含場景表示。

其他算法Orbeez-SLAM、FMapping、TT-HO-SLAM、Hi-Map可以參考具體論文。

輔助監(jiān)督

在本節(jié)中，我們探討了基于RGB的SLAM方法，該方法使用外部框架將正則化信息集成到優(yōu)化過程中，稱為輔助監(jiān)督。這些框架包括各種技術，例如從從單視圖或多視圖圖像獲得的深度估計導出的監(jiān)督、表面法線估計、光流等等。外部信號的結(jié)合對于消除優(yōu)化過程的歧義至關重要，并且有助于顯著提高僅使用RGB圖像作為輸入的SLAM系統(tǒng)的性能。

iMODE。該系統(tǒng)通過由三個核心進程組成的多線程體系結(jié)構運行。首先，定位過程利用ORB-SLAM2稀疏SLAM系統(tǒng)在CPU上進行實時相機姿態(tài)估計，為后續(xù)映射選擇關鍵幀。其次，受iMAP的啟發(fā)，半密集映射過程通過監(jiān)督深度渲染幾何體的實時訓練來提高重建精度。

其他算法Hi-SLAM、NICER-SLAM、NeRF-VO、MoD-SLAM可以參考具體論文。

Semantic RGB SLAM

RO-MAP。RO-MAP是一種實時多目標建圖系統(tǒng)，無需深度先驗，利用神經(jīng)輻射場進行目標表示。這種方法將輕量級的以對象為中心的SLAM與NeRF模型相結(jié)合，用于從單目RGB輸入中同時定位和重建對象。該系統(tǒng)有效地為每個對象訓練單獨的NeRF模型，展示了語義對象建圖和形狀重建的實時性能。主要貢獻包括開發(fā)了第一個3D先驗免費單目多目標映射管道，一個為目標量身定制的高效損失函數(shù)，以及一個高性能CUDA實現(xiàn)。

不確定性估計

NeRF SLAM。通過采用DROID-SLAM作為跟蹤模塊和Instant NGP作為分層體積神經(jīng)輻射場圖的實時實現(xiàn)，該方法在給定RGB圖像作為輸入的情況下成功地實現(xiàn)了實時操作效率。此外，結(jié)合深度不確定性估計解決了深度圖中的固有噪聲，通過對神經(jīng)輻射場的深度損失監(jiān)督（權重由深度的邊際協(xié)方差確定）改善了結(jié)果。具體來說，管道涉及兩個實時同步的線程：跟蹤和建圖。跟蹤線程最大限度地減少了滑動關鍵幀窗口的BA重新投影錯誤。映射線程在沒有滑動窗口的情況下優(yōu)化跟蹤線程中的所有關鍵幀。只有當跟蹤線程創(chuàng)建新的關鍵幀，共享關鍵幀數(shù)據(jù)、姿勢、深度估計和協(xié)變量時，才會發(fā)生通信。

LiDAR-Based SLAM

雖然到目前為止討論的VSLAM系統(tǒng)在RGB和密集深度數(shù)據(jù)都可用的較小室內(nèi)場景中成功運行，但它們的局限性在RGB-D相機不切實際的大型室外環(huán)境中變得明顯。激光雷達傳感器在長距離和各種戶外條件下提供稀疏而準確的深度信息，在確保這些環(huán)境中的穩(wěn)健映射和定位方面發(fā)揮著關鍵作用。然而，激光雷達數(shù)據(jù)的稀疏性和RGB信息的缺乏對先前概述的密集SLAM方法在戶外環(huán)境中的應用提出了挑戰(zhàn)。我們現(xiàn)在的重點是利用3D增量激光雷達數(shù)據(jù)的精度來改善戶外場景中的自主導航的新方法，同時利用基于輻射場的場景表示，即使在傳感器覆蓋范圍稀疏的區(qū)域中，也有可能實現(xiàn)密集、平滑的環(huán)境地圖重建。

NeRF-style LiDAR-based SLAM

NeRF-LOAM。NeRF LOAM引入了第一種神經(jīng)隱式方法來聯(lián)合確定傳感器的位置和方向，同時使用激光雷達數(shù)據(jù)構建大規(guī)模環(huán)境的綜合3D表示。該框架包括三個相互連接的模塊：神經(jīng)里程計、神經(jīng)建圖和網(wǎng)格重建。神經(jīng)里程計模塊通過固定的隱式網(wǎng)絡最小化SDF誤差，為每次進入的激光雷達掃描估計6-DoF姿態(tài)。隨后通過反向投影對姿態(tài)進行優(yōu)化。并行地，神經(jīng)映射模塊在基于八叉樹的架構中使用動態(tài)體素嵌入，熟練地捕捉局部幾何。這種動態(tài)分配策略確保了計算資源的有效利用，避免了預分配嵌入或時間密集型哈希表搜索的復雜性。該方法使用動態(tài)體素嵌入查找表，提高了效率并消除了計算瓶頸。關鍵掃描細化策略提高了重建質(zhì)量，并解決了增量映射過程中的災難性遺忘問題，從而在最后一步中生成詳細的3D網(wǎng)格表示。

其他算法LONER、PIN-SLAM可以參考具體論文。

3DGS-style LiDAR-based SLAM

LIV-GaussMap。所提出的激光雷達慣性視覺（LIV）融合輻射場映射系統(tǒng)將硬件同步激光雷達慣性傳感器與相機集成，以實現(xiàn)精確的數(shù)據(jù)對齊。該方法從激光雷達慣性里程計開始，利用尺寸自適應體素來表示平面表面。激光雷達點云被分割成體素，并計算初始橢圓飛濺估計的協(xié)方差矩陣。該系統(tǒng)是通過使用視覺衍生的光度梯度優(yōu)化球面諧波系數(shù)和激光雷達高斯結(jié)構來改進的，提高了映射精度和視覺真實性。高斯的初始化涉及大小自適應體素分割，并基于指定參數(shù)進行進一步細分。3D高斯圖的自適應控制通過結(jié)構細化和光度梯度優(yōu)化來解決重建不足和過密場景。該系統(tǒng)使用光柵化和阿爾法混合實現(xiàn)實時渲染。

實驗及分析

在本節(jié)中，我們比較了數(shù)據(jù)集之間的方法，重點是跟蹤和3D重建。此外，我們還探索了新穎的視圖合成，并分析了運行時和內(nèi)存使用方面的性能。在隨后的每個表中，我們使用粗體強調(diào)子類別中的最佳結(jié)果，并用紫色突出顯示絕對最佳結(jié)果。在我們的分析中，我們使用通用評估協(xié)議組織了論文中的定量數(shù)據(jù)，并對結(jié)果進行了交叉驗證。我們的首要任務是納入具有一致基準的論文，確保為多個來源的比較提供可靠的基礎。盡管這種方法并非詳盡無遺，但它保證了在我們的表格中包含具有可驗證結(jié)果和共享評估框架的方法。為了進行性能分析，我們使用了具有可用代碼的方法來報告通用硬件平臺（單個NVIDIA 3090 GPU）上的運行時和內(nèi)存需求。關于每種方法的具體實施細節(jié)，鼓勵讀者參考原始論文。

Visual SLAM評測

表2提供了對TUM RGB-D數(shù)據(jù)集的三個場景的相機跟蹤結(jié)果的全面分析，這些場景以具有挑戰(zhàn)性的條件為標志，例如稀疏的深度傳感器信息和RGB圖像中的高運動模糊。關鍵基準包括Kintinous、BAD-SLAM和ORB-SLAM2等已建立的方法，這些方法表示傳統(tǒng)的手工制作的基線。

表3給出了對ScanNet數(shù)據(jù)集的六個場景的相機跟蹤方法的評估。

表4評估了Replica中八個場景的相機跟蹤，與ScanNet和TUM RGB-D等具有挑戰(zhàn)性的同行相比，使用了更高質(zhì)量的圖像。評估包括報告每個場景的ATE RMSE結(jié)果以及平均結(jié)果。

在表5中，我們提供了建圖結(jié)果，突出了Replica數(shù)據(jù)集在3D重建和2D深度估計方面的性能。

在表6中，我們顯示了Replica的訓練輸入視圖上的渲染質(zhì)量，遵循Point SLAM和NICE-SLAM的標準評估方法。

LiDAR SLAM/Odometry評測

表7顯示了對KITTI數(shù)據(jù)集上的激光雷達SLAM策略的評估，詳細說明了頂部的里程計準確性和底部的SLAM性能指標。

表8報告了根據(jù)ATE RMSE測量的Newer College數(shù)據(jù)集的跟蹤精度。

圖片

表9收集了關于New College數(shù)據(jù)集上的3D重建質(zhì)量的結(jié)果。

性能分析

我們通過考慮迄今為止綜述的SLAM系統(tǒng)的效率來結(jié)束實驗研究。為此，我們使用公開的源代碼運行方法，并測量1）GPU內(nèi)存需求（以GB為單位的峰值內(nèi)存使用量）和2）在單個NVIDIA RTX 3090板上實現(xiàn)的平均FPS（計算為處理單個序列所需的總時間，除以其中的幀總數(shù)）。表10收集了我們在Replica上運行的RGB-D和RGB系統(tǒng)的基準測試結(jié)果，按平均FPS的升序排序。最重要的是，我們考慮RGB-D框架：我們可以注意到，盡管SplaTAM在渲染圖像方面效率很高，但在同時處理跟蹤和映射方面卻慢得多。使用分層特征網(wǎng)格的混合方法也是如此，另一方面，所需的GPU內(nèi)存要少得多——與SplaTAM相比低4到5倍。最后，使用更高級的表示，如散列網(wǎng)格或點特征，可以實現(xiàn)更快的處理。這也通過對僅RGB方法的研究得到了證實，在中間，NeRF-SLAM比DIM-SLAM快6倍。最后，關于激光雷達SLAM系統(tǒng)，我們可以觀察到PIN-SLAM是如何比Nerf LOAM高效得多的，在以近7 FPS的速度運行時只需要7 GB的GPU內(nèi)存，而Nerf LOAM需要近12 GB和每幀4秒。

該分析強調(diào)了盡管新一代SLAM系統(tǒng)帶來了巨大的前景，但它們中的大多數(shù)在硬件和運行時要求方面仍然不令人滿意，使它們還沒有準備好用于實時應用。

討論

本節(jié)中，我們重點強調(diào)調(diào)查的主要發(fā)現(xiàn)。我們將概述通過所審查的最新方法取得的主要進展，同時確定該領域當前的挑戰(zhàn)和未來研究的潛在途徑。

場景表示。場景表示的選擇在當前的SLAM解決方案中至關重要，它會顯著影響映射/跟蹤精度、渲染質(zhì)量和計算。早期的方法，如iMAP，使用基于網(wǎng)絡的方法，使用基于坐標的MLP隱式地對場景進行建模。雖然這些提供了緊湊、連續(xù)的場景建模，但由于在更新局部區(qū)域和縮放大型場景方面的挑戰(zhàn)，它們難以進行實時重建。此外，它們往往會產(chǎn)生過度平滑的場景重建。隨后的研究探索了基于網(wǎng)格的表示，如多分辨率分層和稀疏八叉樹網(wǎng)格，這些網(wǎng)格已經(jīng)很受歡迎。網(wǎng)格允許快速查找鄰居，但需要預先指定的網(wǎng)格分辨率，這導致在空閑空間中內(nèi)存使用效率低下，并且捕獲受分辨率限制的精細細節(jié)的能力有限。最近的進展，如Point SLAM，支持基于混合神經(jīng)點的表示。與柵格不同，點密度自然變化，無需預先指定。與基于網(wǎng)絡的方法相比，點可以有效地集中在曲面周圍，同時為細節(jié)分配更高的密度，從而促進可擴展性和本地更新。然而，與其他NeRF風格的方法類似，體積射線采樣顯著限制了其效率。有前景的技術包括基于3D高斯飛濺范式的顯式表示，與以前的表示相比，這種表示表現(xiàn)出更快的渲染/優(yōu)化。然而，在各種限制中，它們嚴重依賴初始化，對未觀察到的區(qū)域的原始生長缺乏控制。

盡管在過去三年中取得了重大進展，但正在進行的研究仍在積極克服現(xiàn)有的場景表示限制，并尋找更有效的替代方案來提高SLAM的準確性和實時性能。

災難性遺忘。現(xiàn)有的方法往往表現(xiàn)出忘記先前學習的信息的趨勢，特別是在大型場景或擴展視頻序列中。在基于網(wǎng)絡的方法的情況下，這歸因于它們依賴于單個神經(jīng)網(wǎng)絡或具有固定容量的全局模型，這些網(wǎng)絡或模型在優(yōu)化過程中會受到全局變化的影響。緩解這一問題的一種常見方法是在從歷史數(shù)據(jù)中回放關鍵幀的同時，使用當前觀測的稀疏射線采樣來訓練網(wǎng)絡。然而，在大規(guī)模增量映射中，這種策略會導致數(shù)據(jù)的累積增加，需要復雜的重新采樣過程來提高內(nèi)存效率。遺忘問題延伸到基于網(wǎng)格的方法。盡管努力解決這一問題，但由于二次或三次空間復雜性，仍存在障礙，這對可擴展性提出了挑戰(zhàn)。同樣，雖然顯式表示（如3DGS風格的解決方案）為災難性遺忘提供了一種實用的解決方案，但由于內(nèi)存需求增加和處理速度緩慢，尤其是在大型場景中，它們面臨著挑戰(zhàn)。一些方法試圖通過使用稀疏幀采樣來減輕這些限制，但這會導致整個3D空間的信息采樣效率低下，與集成稀疏射線采樣的方法相比，導致模型更新速度較慢且不太均勻。

最終，一些策略建議將環(huán)境劃分為子圖，并將局部SLAM任務分配給不同的代理。然而，這在處理多個分布式模型和設計有效策略來管理重疊區(qū)域同時防止地圖融合偽影的發(fā)生方面帶來了額外的挑戰(zhàn)。

實時限制。所審查的許多技術在實現(xiàn)實時處理方面面臨挑戰(zhàn)，通常無法與傳感器幀速率相匹配。這種限制主要是由于所選擇的地圖數(shù)據(jù)結(jié)構或基于計算密集型光線渲染的優(yōu)化，這在NeRF風格的SLAM方法中尤為明顯。特別地，使用分層網(wǎng)格的混合方法需要較少的GPU內(nèi)存，但表現(xiàn)出較慢的運行時性能。另一方面，散列網(wǎng)格或稀疏體素等高級表示允許更快的計算，但對內(nèi)存的要求更高。最后，盡管目前的3DGS風格的方法在快速圖像渲染方面具有優(yōu)勢，但它們?nèi)噪y以有效處理多時間跟蹤和映射處理，阻礙了它們在實時應用中的有效使用。

全局優(yōu)化。實現(xiàn)LC和全局BA需要大量的計算資源，冒著性能瓶頸的風險，尤其是在實時應用程序中。由于更新整個3D模型的計算復雜性過高，許多已綜述的幀到模型方法都面臨著閉環(huán)和全局束調(diào)整的挑戰(zhàn)。相比之下，幀對幀技術通過在背景線程中執(zhí)行全局BA來促進全局校正，這顯著提高了跟蹤精度，如所報道的實驗所示，盡管與實時速率相比計算速度較慢。對于這兩種方法，計算成本很大程度上是由于潛在特征網(wǎng)格缺乏靈活性，無法適應環(huán)路閉合的姿態(tài)校正。事實上，這需要重新分配特征網(wǎng)格，并在校正循環(huán)和更新姿勢后重新訓練整個地圖。然而，隨著處理幀數(shù)的增加，這一挑戰(zhàn)變得更加明顯，導致相機漂移誤差的累積，最終導致不一致的3D重建或重建過程的快速崩潰。

SLAM中NeRF vs. 3DGS。NeRF風格的SLAM主要依賴于MLP，非常適合于新的視圖合成、映射和跟蹤，但由于其依賴于每像素光線行進，因此面臨著過度平滑、易發(fā)生災難性遺忘和計算效率低下等挑戰(zhàn)。3DGS繞過每像素光線行進，并通過基元上的可微分光柵化來利用稀疏性。這有利于SLAM的顯式體積表示、快速渲染、豐富的優(yōu)化、直接梯度流、增加的地圖容量和顯式的空間范圍控制。因此，盡管NeRF顯示出非凡的合成新視圖的能力，但其訓練速度慢和難以適應SLAM是顯著的缺點。3DGS以其高效的渲染、明確的表示和豐富的優(yōu)化能力，成為一種強大的替代品。盡管有其優(yōu)點，但當前3DGS風格的SLAM方法仍有局限性。這些問題包括大型場景的可擴展性問題、缺乏直接的網(wǎng)格提取算法、無法準確編碼精確的幾何體，以及無法控制的高斯增長到未觀察到的區(qū)域的可能性，從而導致渲染視圖和底層3D結(jié)構中的偽影。

評估不一致。缺乏標準化的基準或具有明確評估協(xié)議的在線服務器，導致評估方法不一致，難以在方法之間進行公平比較，并在不同研究論文中提出的方法中出現(xiàn)不一致。ScanNet等數(shù)據(jù)集的挑戰(zhàn)就是例證，其中地面實況姿態(tài)是從Bundle Fusion中得出的，這引發(fā)了人們對評估結(jié)果的可靠性和可推廣性的擔憂。此外，使用訓練視圖作為輸入來評估渲染性能會引發(fā)對特定圖像過擬合風險的合理擔憂。我們強調(diào)有必要探索在SLAM背景下評估新視圖渲染的替代方法，并強調(diào)解決這些問題對更穩(wěn)健的研究結(jié)果的重要性。

其他挑戰(zhàn)。SLAM方法，無論是傳統(tǒng)的、基于深度學習的，還是受輻射場表示的影響，都面臨著共同的挑戰(zhàn)。一個值得注意的障礙是動態(tài)場景的處理，由于靜態(tài)環(huán)境的基本假設，這被證明是困難的，導致重建場景中的偽影和跟蹤過程中的錯誤。雖然一些方法試圖解決這個問題，但仍有很大的改進空間，尤其是在高度動態(tài)的環(huán)境中。

另一個挑戰(zhàn)是對傳感器噪聲的敏感性，包括運動模糊、深度噪聲和劇烈旋轉(zhuǎn)，所有這些都會影響跟蹤和映射的準確性。場景中存在的非朗伯對象（如玻璃或金屬表面）進一步加劇了這種情況，由于其反射特性的變化，這些對象會帶來額外的復雜性。在這些挑戰(zhàn)的背景下，值得注意的是，許多方法往往忽視了對輸入模式的明確不確定性估計，阻礙了對系統(tǒng)可靠性的全面理解。

此外，缺乏外部傳感器，特別是深度信息，給僅RGB的SLAM帶來了一個根本問題，導致深度模糊和3D重建優(yōu)化收斂問題。

一個不那么關鍵但具體的問題是場景的渲染圖像的質(zhì)量。由于缺乏對模型中的視圖方向進行建模，從而影響渲染質(zhì)量，因此已審查的技術通常難以處理與視圖相關的外觀元素，如鏡面反射。

結(jié)論

總之，這篇綜述開創(chuàng)了受輻射場表示最新進展影響的SLAM方法的探索。從iMap等開創(chuàng)性作品到最新進展，這篇綜述揭示了在短短三年內(nèi)出現(xiàn)的大量文獻。通過結(jié)構化的分類和分析，它突出了關鍵的局限性和創(chuàng)新，提供了有價值的見解和跟蹤、繪制和渲染的比較結(jié)果。它還確定了當前懸而未決的挑戰(zhàn)，為未來的探索提供了有趣的途徑。

因此，這項調(diào)查旨在為新手和經(jīng)驗豐富的專家提供重要指南，使其成為這一快速發(fā)展領域的綜合參考。

責任編輯：張燕妮來源：自動駕駛之心

神經(jīng)網(wǎng)絡模型

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<abbr id="qoaeu"></abbr>

<style id="qoaeu"></style>

<tr id="qoaeu"><strike id="qoaeu"></strike></tr>