自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

SLAM3R:北大陳寶權(quán)團(tuán)隊(duì)等只用單目長(zhǎng)視頻就能實(shí)時(shí)重建高質(zhì)量的三維稠密點(diǎn)云

人工智能 新聞
在計(jì)算機(jī)視覺(jué)與機(jī)器人感知領(lǐng)域,基于單目攝像頭的高質(zhì)量三維環(huán)境感知與重建一直是個(gè)極具挑戰(zhàn)性的課題。

北京大學(xué)陳寶權(quán)團(tuán)隊(duì)和香港大學(xué)等高校及業(yè)界機(jī)構(gòu)聯(lián)合推出實(shí)時(shí)三維重建系統(tǒng) SLAM3R,首次實(shí)現(xiàn)從長(zhǎng)視頻(單目 RGB 序列)中實(shí)時(shí)且高質(zhì)量地重建場(chǎng)景的稠密點(diǎn)云。SLAM3R 使用消費(fèi)級(jí)顯卡(如 4090D)即可達(dá)到 20+ FPS 的性能,重建點(diǎn)云的準(zhǔn)確度和完整度達(dá)到當(dāng)前最先進(jìn)水平,同時(shí)兼顧了運(yùn)行效率和重建質(zhì)量。該研究成果被 CVPR 2025 接收為 Highlight 論文,并在第四屆中國(guó)三維視覺(jué)大會(huì)(China3DV 2025)上被評(píng)選為年度最佳論文,合作者為董思言博士(共同一作)、王書(shū)哲博士、尹英達(dá)博士、楊言超助理教授和樊慶楠博士,第一作者為北京大學(xué)本科生劉宇政。

圖片

  • 論文標(biāo)題:SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos
  • 論文地址:https://arxiv.org/pdf/2412.09401
  • 代碼地址:https://github.com/PKU-VCL-3DV/SLAM3R

SLAM3R 的交互界面(視頻經(jīng)過(guò)加速)。用戶(hù)只需使用普通手機(jī)攝像頭拍攝 RGB 視頻,即可通過(guò)部署于服務(wù)器的 SLAM3R 系統(tǒng)實(shí)時(shí)重建出高質(zhì)量的場(chǎng)景稠密點(diǎn)云,將二維視頻轉(zhuǎn)化為"可交互"、"可編輯"的三維世界。

在計(jì)算機(jī)視覺(jué)與機(jī)器人感知領(lǐng)域,基于單目攝像頭的高質(zhì)量三維環(huán)境感知與重建一直是個(gè)極具挑戰(zhàn)性的課題——這主要是因?yàn)樾枰獜挠邢薜亩S觀(guān)測(cè)中恢復(fù)在相機(jī)投影過(guò)程中丟失的三維空間信息。過(guò)去的三十年間,研究者們建立了較為完善的多視角幾何理論和計(jì)算框架,通常依賴(lài)多種算法的集成,包括運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(Structure-from-Motion,簡(jiǎn)稱(chēng) SfM)、同時(shí)定位和地圖構(gòu)建(Simultaneous Localization and Mapping,簡(jiǎn)稱(chēng) SLAM)以及多視角立體視覺(jué)(Multi-View Stereo,簡(jiǎn)稱(chēng) MVS)等。

由于擁有扎實(shí)的數(shù)學(xué)原理和優(yōu)化算法作為"護(hù)城河",三維重建領(lǐng)域較少受到神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)方法的"入侵"。在傳統(tǒng)方法中,神經(jīng)網(wǎng)絡(luò)主要作為算法流程的輔助模塊,用于提升特征匹配的魯棒性和深度估計(jì)的完整性。近年來(lái),隨著以 DUSt3R 為代表的大型神經(jīng)網(wǎng)絡(luò)模型出現(xiàn),這一傳統(tǒng)范式正在改變:通過(guò)端到端的前饋神經(jīng)網(wǎng)絡(luò),可以直接從多視角 RGB 圖像預(yù)測(cè)三維幾何,避免了傳統(tǒng)方法中迭代優(yōu)化所帶來(lái)的效率瓶頸。

SLAM3R(發(fā)音:/sl?m?r/)進(jìn)一步革新了這一范式的演進(jìn),首次將大模型應(yīng)用于長(zhǎng)視頻序列的稠密重建任務(wù)。該方案通過(guò)前饋神經(jīng)網(wǎng)絡(luò),將局部多視角三維重建與全局增量式坐標(biāo)配準(zhǔn)無(wú)縫集成,為基于單目 RGB 視頻輸入的稠密點(diǎn)云重建提供了高效率解決方案,無(wú)需迭代優(yōu)化相機(jī)參數(shù)或三維點(diǎn)云。實(shí)驗(yàn)結(jié)果表面,SLAM3R 不僅在多個(gè)數(shù)據(jù)集上展現(xiàn)出最先進(jìn)的重建質(zhì)量,還能在消費(fèi)級(jí)顯卡上保持 20+ FPS 的實(shí)時(shí)性能。更為重要的是,SLAM3R 的成功展示了純數(shù)據(jù)驅(qū)動(dòng)的方法在長(zhǎng)視頻序列三維幾何感知任務(wù)中的潛力,為未來(lái)重建系統(tǒng)的研究提供了新思路。

SLAM3R 漸進(jìn)式重建過(guò)程展示。輸入 RGB 圖像序列(如左上圖所示)后,SLAM3R 首先進(jìn)行局部多視角三維重建(左下圖),然后執(zhí)行全局增量式坐標(biāo)配準(zhǔn)(右圖),從而逐步構(gòu)建完整場(chǎng)景的點(diǎn)云模型。

三位一體的挑戰(zhàn):準(zhǔn)確、完整、高效

基于多視角幾何理論的傳統(tǒng)方法通常將三維重建分為兩個(gè)階段:首先通過(guò) SLAM 或 SfM 算法估計(jì)相機(jī)參數(shù)和場(chǎng)景結(jié)構(gòu),然后使用 MVS 算法補(bǔ)充場(chǎng)景的幾何細(xì)節(jié)。這類(lèi)方法雖然能夠獲得高質(zhì)量的重建結(jié)果,但是需要離線(xiàn)優(yōu)化等處理,因此實(shí)時(shí)性能較差。

近年來(lái),DROID-SLAM 和 NICER-SLAM 等集成了相機(jī)定位和稠密重建的 SLAM 系統(tǒng)相繼問(wèn)世。然而,這些系統(tǒng)或是重建質(zhì)量不夠理想,或是無(wú)法達(dá)到實(shí)時(shí)運(yùn)行的要求。DUSt3R 開(kāi)創(chuàng)性地提出端到端的高效點(diǎn)云重建,但其僅局限于圖像對(duì)(雙目),在視頻場(chǎng)景下仍需全局迭代優(yōu)化,因而影響了效率。同期工作 Spann3R 雖將 DUSt3R 擴(kuò)展為增量重建方式并提高了效率,但也帶來(lái)了明顯的累積誤差,降低了重建質(zhì)量。

此外,重建的準(zhǔn)確度和完整度之間存在著固有的權(quán)衡關(guān)系,導(dǎo)致當(dāng)前重建系統(tǒng)難以同時(shí)實(shí)現(xiàn)準(zhǔn)確、完整和高效這三個(gè)目標(biāo)。因此,在單目視頻稠密重建領(lǐng)域中,要同時(shí)達(dá)到高質(zhì)量和高效率極具挑戰(zhàn)性。

SLAM3R:大模型時(shí)代背景下的實(shí)時(shí)稠密重建系統(tǒng)

DUSt3R 首次證明了大型神經(jīng)網(wǎng)絡(luò)模型的 Scaling Law 在雙目立體視覺(jué)中的可行性。SLAM3R 在此基礎(chǔ)上更進(jìn)一步,通過(guò)引入傳統(tǒng) SLAM 系統(tǒng)的經(jīng)典設(shè)計(jì)理念,成功將大模型應(yīng)用于長(zhǎng)視頻序列的稠密重建任務(wù)。這種端到端的方法不僅具有天然的高運(yùn)行效率,而且經(jīng)過(guò)大規(guī)模訓(xùn)練后能達(dá)到高質(zhì)量的重建效果,從而實(shí)現(xiàn)了一個(gè)在準(zhǔn)確度、完整讀和效率方面都表現(xiàn)出色的三維重建系統(tǒng)。

圖片

SLAM3R 系統(tǒng)示意圖。給定單目 RGB 視頻,SLAM3R 使用滑動(dòng)窗口機(jī)制將其轉(zhuǎn)換為互有重疊的片段(稱(chēng)為窗口)。每個(gè)窗口輸入至 Image-to-Points(I2P)網(wǎng)絡(luò),用于恢復(fù)局部坐標(biāo)系中的稠密點(diǎn)云。隨后,這些局部點(diǎn)逐步輸入至 Local-to-World(L2W)網(wǎng)絡(luò),以創(chuàng)建全局一致的場(chǎng)景模型。I2P 網(wǎng)絡(luò)選擇一個(gè)關(guān)鍵幀作為參考建立局部坐標(biāo)系,并利用窗口中的其余幀估計(jì)該窗口的稠密點(diǎn)云。第一個(gè)窗口用于建立世界坐標(biāo)系,之后 L2W 網(wǎng)絡(luò)逐步融合后續(xù)窗口。在增量融合過(guò)程中,系統(tǒng)檢索最相關(guān)的已注冊(cè)關(guān)鍵幀作為參考,并整合新的關(guān)鍵幀。通過(guò)這個(gè)迭代過(guò)程,最終完成整個(gè)場(chǎng)景的重建。

SLAM3R 主要由兩個(gè)部分組成:Image-to-Points(I2P)網(wǎng)絡(luò)和 Local-to-World(L2W)網(wǎng)絡(luò)。I2P 網(wǎng)絡(luò)負(fù)責(zé)從視頻片段中恢復(fù)局部坐標(biāo)系下的稠密點(diǎn)云,而 L2W 網(wǎng)絡(luò)則將局部重建結(jié)果逐步注冊(cè)到全局場(chǎng)景坐標(biāo)系中。在整個(gè)點(diǎn)云重建過(guò)程中,系統(tǒng)直接使用網(wǎng)絡(luò)在統(tǒng)一坐標(biāo)系中預(yù)測(cè) 3D 點(diǎn)云,無(wú)需顯式計(jì)算相機(jī)參數(shù)和三角化場(chǎng)景點(diǎn)云,從而避免了傳統(tǒng)重建方法中迭代優(yōu)化等耗時(shí)的操作。

窗口內(nèi)的多視角三維重建(I2P 網(wǎng)絡(luò))。在每個(gè)窗口內(nèi),選擇一幀作為關(guān)鍵幀來(lái)建立參考系,其余幀(稱(chēng)為支持幀)用于輔助該關(guān)鍵幀的重建。我們基于 DUSt3R 解碼器設(shè)計(jì)了關(guān)鍵幀解碼器,通過(guò)引入簡(jiǎn)單的最大值池化操作來(lái)聚合多個(gè)支持幀的交叉注意力特征,從而有效整合多視角信息。這一改進(jìn)在保持模型結(jié)構(gòu)簡(jiǎn)潔的同時(shí)具有多重優(yōu)勢(shì):1)繼承 DUSt3R 預(yù)訓(xùn)練權(quán)重,從而保證預(yù)測(cè)質(zhì)量;2)未引入過(guò)多計(jì)算開(kāi)銷(xiāo),保持實(shí)時(shí)性能;3)支持任意數(shù)量的圖像輸入,具有良好的擴(kuò)展性。

窗口間的增量式點(diǎn)云注冊(cè)(L2W 網(wǎng)絡(luò))。窗口間的注冊(cè)與窗口內(nèi)的重建相似,不同之處在于前者使用多幀重建結(jié)果作為參考系,用以輔助注冊(cè)新的關(guān)鍵幀。因此,L2W 采用了 I2P 的整體架構(gòu)。在此基礎(chǔ)上,引入簡(jiǎn)單的坐標(biāo)編碼器來(lái)處理點(diǎn)云輸入,并通過(guò)逐層特征疊加的方式注入解碼器。這種機(jī)制讓模型在解碼過(guò)程中持續(xù)接收幾何和坐標(biāo)系的雙重引導(dǎo),既確保了信息傳遞的充分性,又避免了復(fù)雜特征交互設(shè)計(jì)帶來(lái)的計(jì)算負(fù)擔(dān)。這一設(shè)計(jì)巧妙地繼承了 DUSt3R 的坐標(biāo)轉(zhuǎn)換能力,并將其轉(zhuǎn)化為可控的注冊(cè)過(guò)程。

場(chǎng)景幀檢索模塊。我們提出了一種前饋檢索機(jī)制,用于確定 L2W 網(wǎng)絡(luò)在注冊(cè)新關(guān)鍵幀時(shí)所使用的參考幀。當(dāng) SLAM3R 系統(tǒng)需要調(diào)用 L2W 融合新窗口(關(guān)鍵幀)時(shí),系統(tǒng)會(huì)先通過(guò)場(chǎng)景幀檢索模塊從已注冊(cè)窗口中檢索 K 個(gè)最優(yōu)參考幀,再將這些參考幀與新幀一同輸入 L2W 模型進(jìn)行坐標(biāo)系轉(zhuǎn)換。這種設(shè)計(jì)既保持了全局一致性,又有效緩解了傳統(tǒng) SLAM 系統(tǒng)中的累積誤差問(wèn)題。檢索模塊通過(guò)在 I2P 網(wǎng)絡(luò)中附加額外的輕量級(jí) MLP 實(shí)現(xiàn),完成前饋式快速檢索。

大規(guī)模訓(xùn)練。SLAM3R 系統(tǒng)的各個(gè)模塊均采用前饋式神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),最大程度地復(fù)用了 DUSt3R 大規(guī)模預(yù)訓(xùn)練的權(quán)重,并在大規(guī)模視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練。具體來(lái)說(shuō),我們收集了約 85 萬(wàn)個(gè)來(lái)自 ScanNet++、Aria Synthetic Environments 和 CO3D-v2 數(shù)據(jù)集的視頻片段,使用 8 張 4090D 顯卡進(jìn)行訓(xùn)練。訓(xùn)練完成后,該系統(tǒng)可在單張 4090D 顯卡上實(shí)現(xiàn)實(shí)時(shí)推理。

單目視頻稠密重建邁入高質(zhì)高效新時(shí)代

我們?cè)谑覂?nèi)場(chǎng)景數(shù)據(jù)集 7-Scenes 和 Replica 上評(píng)估了 SLAM3R。在重建速度較快(FPS 大于 1)的方法中,SLAM3R 實(shí)現(xiàn)了最佳的準(zhǔn)確度和完整度。

圖片

圖片

7-Scenes(上方表格)和 Replica(下方表格)數(shù)據(jù)集的重建結(jié)果評(píng)估。我們以厘米為單位報(bào)告重建的準(zhǔn)確度和完整性。FPS 欄目的顏色漸變從紅色變?yōu)辄S色,再變?yōu)榫G色,表示實(shí)時(shí)性能提升。

值得特別指出的是,即使沒(méi)有進(jìn)行任何后續(xù)全局優(yōu)化,SLAM3R 的重建質(zhì)量也達(dá)到了與需要復(fù)雜優(yōu)化的離線(xiàn)方法相當(dāng)?shù)乃?。這表明 SLAM3R 在準(zhǔn)確度、完整度和運(yùn)行效率三方面達(dá)到了理想的平衡。

SLAM3R 基于公開(kāi)數(shù)據(jù)集與日常視頻的場(chǎng)景重建結(jié)果展示。

未來(lái)展望

SLAM3R 在保持 20+ FPS 實(shí)時(shí)性能的同時(shí),其重建質(zhì)量可達(dá)到離線(xiàn)方法相近的水平,旨在推動(dòng)三維重建向高質(zhì)量、高效率方向發(fā)展。通過(guò)將傳統(tǒng)多階段的三維重建流程簡(jiǎn)化為輕便的前饋網(wǎng)絡(luò),SLAM3R 降低了使用門(mén)檻,使三維重建有望從專(zhuān)業(yè)領(lǐng)域拓展至大眾化應(yīng)用。隨著模型輕量化技術(shù)的突破,該方案未來(lái)有望進(jìn)一步應(yīng)用于移動(dòng)終端,為三維資產(chǎn)快速獲取、通用人工智能和具身智能的落地提供基礎(chǔ)三維數(shù)據(jù)支持。

目前,SLAM3R 仍存在諸多局限性。由于跳過(guò)了相機(jī)參數(shù)預(yù)測(cè)和優(yōu)化等環(huán)節(jié),SLAM3R 無(wú)法執(zhí)行顯式的全局優(yōu)化(Bundle Adjustment)。因此,在大規(guī)模場(chǎng)景中,系統(tǒng)仍會(huì)受到累積誤差的影響。此外,基于場(chǎng)景重建推導(dǎo)出的相機(jī)參數(shù)的精度仍不如專(zhuān)門(mén)針對(duì)相機(jī)定位的 SLAM 系統(tǒng)。解決這些局限性是我們未來(lái)工作的重點(diǎn)。

歡迎試用!期待寶貴的意見(jiàn)和建議!

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-06-08 14:09:00

研究訓(xùn)練

2024-01-11 09:55:00

AI訓(xùn)練

2024-03-06 14:57:13

火山引擎

2025-04-25 09:15:00

模型數(shù)據(jù)AI

2024-01-18 12:37:31

SOTA3D方法

2024-09-30 13:50:00

2017-07-14 09:54:47

代碼函數(shù)程序

2022-07-06 08:34:17

前端單測(cè)項(xiàng)目

2021-08-08 14:26:24

SQL數(shù)據(jù)庫(kù)開(kāi)發(fā)

2023-12-13 10:14:00

機(jī)器視覺(jué)技術(shù)

2023-06-02 14:10:05

三維重建

2023-10-27 14:54:33

智能駕駛云計(jì)算

2011-05-31 13:43:46

外鏈

2019-02-20 17:43:18

2024-12-12 08:28:11

2020-09-27 09:41:04

代碼開(kāi)發(fā)注釋

2022-08-01 16:36:50

算力
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)