自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

超越ORB-SLAM3!SL-SLAM:低光、嚴重抖動和弱紋理場景全搞定

人工智能 新聞
這里介紹了一種多功能的混合視覺SLAM系統(tǒng),旨在提高在諸如低光條件、動態(tài)光照、弱紋理區(qū)域和嚴重抖動等挑戰(zhàn)性場景中的適應性。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

寫在前面

今天我們探討下深度學習技術(shù)如何改善在復雜環(huán)境中基于視覺的SLAM(同時定位與地圖構(gòu)建)性能。通過將深度特征提取和深度匹配方法相結(jié)合,這里介紹了一種多功能的混合視覺SLAM系統(tǒng),旨在提高在諸如低光條件、動態(tài)光照、弱紋理區(qū)域和嚴重抖動等挑戰(zhàn)性場景中的適應性。我們的系統(tǒng)支持多種模式,包括單目、立體、單目-慣性以及立體-慣性配置。除此之外,還分析了如何將視覺SLAM與深度學習方法相結(jié)合,以啟發(fā)其他研究。通過在公共數(shù)據(jù)集和自采樣數(shù)據(jù)上的廣泛實驗,展示了SL-SLAM系統(tǒng)相較于傳統(tǒng)方法的優(yōu)勢。實驗結(jié)果表明,SL-SLAM在定位精度和跟蹤魯棒性方面優(yōu)于最先進的SLAM算法。

工程鏈接:https://github.com/zzzzxxxx111/SLslam.

當前SLAM應用背景介紹

SLAM(同時定位與地圖構(gòu)建)是機器人技術(shù)、自動駕駛和3D重建中的關(guān)鍵技術(shù),它同時確定傳感器的位置(定位)并構(gòu)建環(huán)境的地圖。視覺和慣性傳感器是最常用的傳感設備,相關(guān)的解決方案已經(jīng)被深入討論和探索。經(jīng)過幾十年的發(fā)展,視覺(慣性)SLAM的處理架構(gòu)已經(jīng)形成了一個基本框架,包括跟蹤、地圖構(gòu)建和回環(huán)檢測。

近年來,相關(guān)研究集中在提高極端條件下的魯棒性和適應性。由于SLAM技術(shù)的發(fā)展歷史悠久,有許多基于傳統(tǒng)幾何方法的SLAM代表性工作,如ORBSLAM、VINS-Mono、DVO、MSCKF。然而,仍然存在一些未解決的問題。在諸如低光或動態(tài)光照、嚴重抖動和弱紋理區(qū)域等挑戰(zhàn)性環(huán)境中,由于傳統(tǒng)特征提取算法僅考慮圖像中的局部信息,而沒有考慮圖像的結(jié)構(gòu)和語義信息,當遇到上述情況時,現(xiàn)有的SLAM系統(tǒng)可能會因為難以提取和匹配準確穩(wěn)定的特征而陷入困境。因此,在這些條件下,SLAM系統(tǒng)的跟蹤可能會變得不穩(wěn)定甚至無效。

深度學習的快速發(fā)展為計算機視覺領(lǐng)域帶來了革命性的變革。通過利用大量數(shù)據(jù)訓練,深度學習模型能夠模擬復雜的場景結(jié)構(gòu)和語義信息,從而提升SLAM系統(tǒng)對場景的理解和表達能力。這種方法主要分為兩種途徑。第一種是基于深度學習的端到端算法,如Droid-slam 、NICE-SLAM 、DVI-SLAM 。然而,這些方法需要大量的數(shù)據(jù)進行訓練,同時需要高計算資源和存儲空間,難以實現(xiàn)實時跟蹤。此外,它們可能僅在具有類似訓練數(shù)據(jù)集的特定場景中表現(xiàn)出色。面對復雜環(huán)境時,其估計的軌跡往往會出現(xiàn)偏差甚至無效。第二種途徑稱為混合SLAM,它利用深度學習來增強SLAM中的特定模塊。混合SLAM充分利用了傳統(tǒng)幾何方法和深度學習方法的優(yōu)勢,能夠在幾何約束和語義理解之間找到平衡。盡管目前該領(lǐng)域已有一些研究,但如何有效地整合深度學習技術(shù)仍是一個值得進一步研究的方向。

目前,現(xiàn)有的混合SLAM存在一些局限性。DXNet 只是簡單地將ORB特征點替換為深度特征點,但仍繼續(xù)使用傳統(tǒng)方法來跟蹤這些特征。因此,這可能導致深度特征信息的不連貫。SP-Loop 僅將深度學習特征點引入閉環(huán)模塊,而在其他地方保留傳統(tǒng)的特征點提取方法。因此,這些混合SLAM方法并沒有有效且全面地結(jié)合深度學習技術(shù),這導致在某些復雜場景中跟蹤和建圖效果的下降。

為了解決這些問題,這里提出了一個基于深度學習的多功能SLAM系統(tǒng)。將Superpoint特征點提取模塊整合到系統(tǒng)中,并將其作為唯一的表示形式貫穿始終。此外,在復雜環(huán)境中,傳統(tǒng)的特征匹配方法經(jīng)常表現(xiàn)出不穩(wěn)定性,導致跟蹤和建圖質(zhì)量的下降。然而,最近基于深度學習的特征匹配方法的進步已經(jīng)顯示出在復雜環(huán)境中實現(xiàn)改進匹配性能的潛力。這些方法利用場景的先驗信息和結(jié)構(gòu)細節(jié)來增強匹配的有效性。Lightglue 作為最新的SOTA(state-of-the-art)匹配方法,因其高效且輕量級的特性,對于需要高實時性能的SLAM系統(tǒng)具有優(yōu)勢。因此,我們已將整個SLAM系統(tǒng)中的特征匹配方法替換為Lightglue,相較于傳統(tǒng)方法,提高了魯棒性和準確性。

此外,我們對Superpoint特征點描述符進行了預處理,以與相應的視覺詞袋的訓練保持一致。當與Lightglue結(jié)合時,這種方法實現(xiàn)了精確的場景識別效果。同時,為了保持準確性與效率之間的平衡,設計了一種特征點選擇策略。考慮到可擴展性、可移植性和實時性能,我們利用ONNX Runtime庫來部署這些深度學習模型。最后,設計了一系列實驗來證明方法在多種具有挑戰(zhàn)性的場景中提高了SLAM算法的軌跡預測精度和跟蹤魯棒性,如圖8所示。

SL-SLAM系統(tǒng)框架

SL-SLAM的系統(tǒng)結(jié)構(gòu)如圖2所示,該系統(tǒng)主要有四種傳感器配置,即單目、單目慣性、雙目和雙目慣性。該系統(tǒng)基于ORB-SLAM3作為基線,包含三個主要模塊:跟蹤、局部建圖和回環(huán)檢測。為了將深度學習模型集成到系統(tǒng)中,使用了ONNX Runtime深度學習部署框架,結(jié)合了SuperPoint和LightGlue模型。

對于每個輸入圖像,系統(tǒng)首先將其輸入到SuperPoint網(wǎng)絡中,以獲取特征點的概率張量和描述符張量。然后,系統(tǒng)使用兩幀進行初始化,并對每個后續(xù)幀進行粗略跟蹤。它進一步通過跟蹤局部地圖來細化姿態(tài)估計。在跟蹤失敗的情況下,系統(tǒng)要么使用參考幀進行跟蹤,要么執(zhí)行重定位以重新獲取姿態(tài)。請注意,在粗略跟蹤、初始化、參考幀跟蹤和重定位中,都使用了LightGlue進行特征匹配。這確保了準確且魯棒的匹配關(guān)系,從而提高了跟蹤的有效性。

在基線算法中,局部建圖線程的主要作用是在實時動態(tài)地構(gòu)建局部地圖,包括地圖點和關(guān)鍵幀。它利用局部地圖執(zhí)行捆集調(diào)整優(yōu)化,從而減少跟蹤誤差并增強一致性。局部建圖線程使用跟蹤線程輸出的關(guān)鍵幀,基于LightGlue的三角測量和自適應局部捆集調(diào)整(BA)優(yōu)化來重建精確的地圖點。然后區(qū)分并移除冗余的地圖點和關(guān)鍵幀。

閉環(huán)校正線程利用基于SuperPoint描述符訓練的關(guān)鍵幀數(shù)據(jù)庫和詞袋模型來檢索相似的關(guān)鍵幀。通過對SuperPoint描述符進行二值化來增強檢索效率。選定的關(guān)鍵幀使用LightGlue進行特征匹配,以進行共同視圖幾何驗證,減少不匹配的可能性。最后,執(zhí)行閉環(huán)融合和全局BA(Bundle Adjustment)來優(yōu)化整體姿態(tài)。

1)Feature Extraction

SuperPoint 網(wǎng)絡結(jié)構(gòu):SuperPoint網(wǎng)絡架構(gòu)主要由三個部分組成:一個共享編碼器、一個特征檢測解碼器和一個描述符解碼器。編碼器是一個VGG風格的網(wǎng)絡,能夠降低圖像維度并提取特征。特征檢測解碼器的任務是計算圖像中每個像素的概率,以確定其成為特征點的可能性。描述符解碼網(wǎng)絡利用子像素卷積來減輕解碼過程的計算復雜度。然后,網(wǎng)絡輸出一個半密集描述符,接著應用雙三次插值算法來獲取完整的描述符。在獲取了網(wǎng)絡輸出的特征點張量和描述符張量之后,為了提高特征提取的魯棒性,我們采用了一種自適應閾值選擇策略來過濾特征點,并進行后處理操作以獲取特征點及其描述符。特征提取模塊的具體結(jié)構(gòu)如圖3所示。

自適應特征選擇:首先,每個圖像,標記為I(W × H),在調(diào)整大小以匹配SuperPoint網(wǎng)絡的輸入圖像尺寸(W′ × H′)之前,會先轉(zhuǎn)換為灰度圖像。圖像過小可能會阻礙特征提取,從而降低跟蹤性能,而圖像過大則可能導致過高的計算需求和內(nèi)存使用。因此,為了平衡特征提取的準確性和效率,本文選擇W′ = 400和H′ = 300。隨后,一個大小為W′ × H′的張量被送入網(wǎng)絡,產(chǎn)生兩個輸出張量:得分張量S,以及描述符張量D。一旦獲得特征點得分張量和特征描述符,下一步就是設置一個閾值th來過濾特征點。

在具有挑戰(zhàn)性的場景中,每個特征點的置信度會降低,如果采用固定的置信度閾值th,則可能導致提取的特征數(shù)量減少。為了解決這個問題,我們引入了自適應的SuperPoint閾值設置策略。這種自適應方法根據(jù)場景動態(tài)調(diào)整特征提取的閾值,從而在具有挑戰(zhàn)性的場景中實現(xiàn)更魯棒的特征提取。自適應閾值機制考慮了兩個因素:特征內(nèi)部關(guān)系和幀間特征關(guān)系。

在具有挑戰(zhàn)性的場景中,每個特征點的置信度會降低,如果采用固定的置信度閾值th,則可能導致提取的特征數(shù)量減少。為了解決這個問題,引入了自適應的SuperPoint閾值設置策略。這種自適應方法根據(jù)場景動態(tài)調(diào)整特征提取的閾值,從而在具有挑戰(zhàn)性的場景中實現(xiàn)更魯棒的特征提取。自適應閾值機制考慮了兩個因素:特征內(nèi)部關(guān)系和幀間特征關(guān)系。

2)特征匹配與前端

LightGlue網(wǎng)絡結(jié)構(gòu):LightGlue模型由多個相同的層組成,這些層共同處理兩組特征。每一層都包含自注意力和交叉注意力單元,用于更新點的表示。每一層中的分類器決定推斷的停止,避免了不必要的計算。最后,一個輕量級的頭部計算部分匹配得分。網(wǎng)絡的深度會根據(jù)輸入圖像的復雜性動態(tài)調(diào)整。如果圖像對很容易匹配,由于標記的高置信度,可以實現(xiàn)早期終止。因此,LightGlue具有更短的運行時間和更低的內(nèi)存消耗,使其適合集成到需要實時性能的任務中。

相鄰幀之間的時間間隔,通常只有幾十毫秒,ORB-SLAM3假設相機在這段短暫的時間內(nèi)進行勻速運動。它利用前一幀的姿態(tài)和速度來估計當前幀的姿態(tài),并使用這個估計的姿態(tài)進行投影匹配。然后,它在一定范圍內(nèi)搜索匹配點,并據(jù)此細化姿態(tài)。然而,在現(xiàn)實中,相機的運動可能并不總是均勻的。突然的加速、減速或旋轉(zhuǎn)都可能對這種方法的有效性產(chǎn)生不利影響。Lightglue可以通過直接在當前幀和前一幀之間匹配特征來有效解決這個問題。然后,它使用這些匹配的特征來細化初始姿態(tài)估計,從而減少突然加速或旋轉(zhuǎn)的負面影響。

在先前幀中圖像跟蹤失敗的情況下,無論是由于突然的相機運動還是其他因素,都需要使用參考關(guān)鍵幀進行跟蹤或重新定位?;€算法采用詞袋(Bag-of-Words, BoW)方法來加速當前幀和參考幀之間的特征匹配。然而,BoW方法將空間信息轉(zhuǎn)換為基于視覺詞匯的統(tǒng)計信息,可能會丟失特征點之間的準確空間關(guān)系。此外,如果BoW模型中使用的視覺詞匯不足或不夠代表性,它可能無法捕獲場景的豐富特征,導致匹配過程中的不準確。

結(jié)合Lightglue的跟蹤:由于相鄰幀之間的時間間隔很短,通常只有幾十毫秒,ORB-SLAM3假設相機在這段時間內(nèi)進行勻速運動。它使用前一幀的姿態(tài)和速度來估計當前幀的姿態(tài),并使用這個估計的姿態(tài)進行投影匹配。然后,它在一定范圍內(nèi)搜索匹配點,并據(jù)此細化姿態(tài)。然而,在現(xiàn)實中,相機的運動可能并不總是均勻的。突然的加速、減速或旋轉(zhuǎn)都可能對這種方法的有效性產(chǎn)生不利影響。Lightglue可以有效地解決這個問題,通過直接在當前幀和前一幀之間匹配特征。然后,它使用這些匹配的特征來細化初始姿態(tài)估計,從而減少突然加速或旋轉(zhuǎn)的負面影響。

在先前幀中圖像跟蹤失敗的情況下,無論是由于突然的相機運動還是其他因素,都需要使用參考關(guān)鍵幀進行跟蹤或重新定位?;€算法采用詞袋(Bag-of-Words, BoW)方法來加速當前幀和參考幀之間的特征匹配。然而,BoW方法將空間信息轉(zhuǎn)換為基于視覺詞匯的統(tǒng)計信息,可能會丟失特征點之間的準確空間關(guān)系。此外,如果BoW模型中使用的視覺詞匯不足或不夠代表性,它可能無法捕獲場景的豐富特征,導致匹配過程中的不準確。

為了解決這些問題,在整個系統(tǒng)中用Lightglue替換了BoW方法。這一改變顯著提高了在大規(guī)模變換下成功跟蹤和重新定位的概率,從而增強了我們的跟蹤過程的準確性和魯棒性。圖4展示了不同匹配方法的有效性??梢杂^察到,基于Lightglue的匹配方法相比ORB-SLAM3中使用的基于投影或詞袋(Bag-of-Words)的匹配方法,表現(xiàn)出了更優(yōu)的匹配性能。因此,在SLAM操作過程中,它使得地圖點的跟蹤更加均勻和穩(wěn)定,如圖6所示。

結(jié)合Lightglue的局部建圖:在局部建圖線程中,新地圖點的三角化是通過當前關(guān)鍵幀及其鄰近關(guān)鍵幀來完成的。為了獲得更精確的地圖點,需要與具有更大基線的關(guān)鍵幀進行匹配。然而,ORB-SLAM3使用詞袋(Bag-of-Words, BoW)匹配來實現(xiàn)這一點,但當基線較大時,BoW特征匹配的性能會降低。相比之下,Lightglue算法非常適合與大基線進行匹配,并能無縫地集成到系統(tǒng)中。通過使用Lightglue進行特征匹配并對匹配點進行三角化,可以恢復更全面、更高質(zhì)量的地圖點。

這通過在關(guān)鍵幀之間建立更多連接,以及通過共同優(yōu)化共同可見的關(guān)鍵幀和地圖點的姿態(tài)來穩(wěn)定跟蹤,從而增強了局部建圖能力。地圖點的三角化效果如圖6所示??梢杂^察到,與ORB-SLAM3相比,我們的方法構(gòu)建的地圖點能更好地反映場景的結(jié)構(gòu)信息。此外,它們在空間上的分布更加均勻和廣泛。

3)Loop closure

詞袋深度描述符:在閉環(huán)檢測中使用的詞袋方法是基于視覺詞匯的方法,借鑒了自然語言處理中詞袋的概念。它首先進行字典的離線訓練。最初,使用K-means算法將訓練圖像集中檢測到的特征描述符聚類成k個集合,形成字典樹的第一級。隨后,在每個集合內(nèi)進行遞歸操作,最終得到深度為L、分支數(shù)為k的最終字典樹,建立視覺詞匯表。每個葉節(jié)點都被視為一個詞匯。

一旦字典訓練完成,在算法執(zhí)行期間,會從當前圖像的所有特征點中在線生成詞袋向量和特征向量。主流SLAM框架傾向于使用手動設置的二進制描述符,因為它們具有較小的內(nèi)存占用和簡單的比較方法。為了進一步提高方法效率,SP-Loop 使用期望值為0、標準差為0.07的高斯分布來表示超點描述符的值。因此,可以將超點的256維浮點描述符進行二進制編碼,以提高視覺位置識別的查詢速度。二進制編碼如等式4所示。

基本流程:在SLAM中的閉環(huán)檢測通常涉及三個關(guān)鍵階段:尋找初始閉環(huán)候選關(guān)鍵幀、驗證閉環(huán)候選關(guān)鍵幀以及執(zhí)行閉環(huán)校正和全局捆綁調(diào)整(Bundle Adjustment,BA)。

啟動過程的第一步是識別初始閉環(huán)候選關(guān)鍵幀。這通過利用之前訓練的DBoW3詞袋模型來實現(xiàn)。識別出與當前幀Ka具有共同詞匯的關(guān)鍵幀,但排除與Ka共同可見的關(guān)鍵幀。計算與這些候選關(guān)鍵幀相關(guān)的共同可見關(guān)鍵幀的總分。從閉環(huán)候選關(guān)鍵幀中得分最高的前N組中,選擇得分最高的關(guān)鍵幀。這個選定的關(guān)鍵幀,表示為Km。

接下來,需要確定從Km到當前關(guān)鍵幀Ka的相對姿態(tài)變換Tam。在ORB-SLAM3中,使用基于詞袋的特征匹配方法來匹配當前關(guān)鍵幀與候選關(guān)鍵幀Km及其共同可見的關(guān)鍵幀Kco。值得注意的是,由于lightglue算法大大提高了匹配效率,因此將當前幀與候選幀Km進行匹配會產(chǎn)生高質(zhì)量的地圖點對應。然后,應用RANSAC算法消除異常值,并求解Sim(3)變換以確定初始相對姿態(tài)Tam。為了避免錯誤的位置識別,將對候選關(guān)鍵幀進行幾何驗證,后續(xù)步驟與ORB-SLAM3類似。

實驗對比分析

圖片圖片圖片圖片圖片

責任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2017-08-03 16:07:23

SLAM視覺傳感器

2017-07-05 16:23:50

SLAMVRAR

2024-02-29 09:38:13

神經(jīng)網(wǎng)絡模型

2023-10-20 09:49:46

AI技術(shù)

2024-06-14 09:30:05

2018-07-12 16:03:26

SLAM技術(shù)定位

2024-01-03 10:05:07

自動駕駛4D雷達

2023-11-14 11:23:39

計算自動駕駛

2024-04-29 09:43:21

傳感器激光雷達

2025-03-27 10:54:06

2023-12-12 11:00:50

2024-07-25 09:20:00

地圖場景

2022-08-14 15:26:05

自動駕駛智能

2024-02-28 09:38:43

2022-12-19 14:46:53

視頻方法

2023-08-17 18:33:27

全光園區(qū)

2021-03-05 10:07:36

自動駕駛智慧城市

2024-07-26 10:00:00

數(shù)據(jù)雷達

2024-06-24 09:25:57

2023-08-28 00:53:03

AI3D
點贊
收藏

51CTO技術(shù)棧公眾號