自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

MV-DUSt3R+: 只需2秒!Meta Reality Labs開源最新三維基座模型,多視圖大場景重建

人工智能 新聞
近期,F(xiàn)ei-Fei Li 教授的 World Labs 和 Google 的 Genie 2 展示了 AI 從單圖生成 3D 世界的能力。

本文一作為唐正綱,目前為博士生,就讀于伊利諾伊大學(xué)厄巴納 - 香檳分校,本科畢業(yè)于北京大學(xué)。通訊作者是嚴(yán)志程,Meta Reality Labs 高級科研研究員 (Senior Staff Research Scientist),主要研究方向包括三維基礎(chǔ)模型,終端人工智能 (On-device AI) 和混合現(xiàn)實。

近期,F(xiàn)ei-Fei Li 教授的 World Labs 和 Google 的 Genie 2 展示了 AI 從單圖生成 3D 世界的能力。這技術(shù)讓我們能步入任何圖像并以 3D 形式探索,預(yù)示著數(shù)字創(chuàng)造的新未來。

Meta 也加入了這場構(gòu)建世界模型的競賽,推出并且開源了全新的世界模型構(gòu)建基座模型 MV-DUSt3R+。Meta 的技術(shù)通過 Quest 3 和 Quest 3S 頭顯,快速還原 3D 場景。只需幾張照片,用戶就能在 Meta 頭顯中體驗不同的混合環(huán)境。

在這一領(lǐng)域,DUSt3R 曾是 SOTA 的標(biāo)桿。其 GitHub 上的 5.5k star 證明了它在 3D 重建領(lǐng)域的影響力。然而,DUSt3R 每次只能處理兩張圖。處理更多圖時,需要使用 bundle adjustment,這非常耗時,限制了它在復(fù)雜場景上的應(yīng)用。

現(xiàn)在,Meta Reality Labs 和伊利諾伊大學(xué)厄巴納 - 香檳分校(UIUC)推出了新工作《MV-DUSt3R+: Single-Stage Scene Reconstruction from Sparse Views In 2 Seconds》。這項研究全面提升了 DUSt3R。通過全新的多視圖解碼器塊和交叉視圖注意力塊機制,MV-DUSt3R + 可以直接從稀疏視圖中重建復(fù)雜的三維場景。而且重建只需 2 秒鐘!

圖片

MV-DUSt3R + 是由 Meta 的嚴(yán)志程團(tuán)隊開發(fā)。嚴(yán)志程在 Meta 任 Senior Staff Research Scientist 一職,UIUC 博士,目前負(fù)責(zé) Meta 的混合現(xiàn)實開發(fā)工作。文章的第一作者唐正綱,本科畢業(yè)于北京大學(xué),目前在 UIUC 攻讀博士學(xué)位,專注于 3D 視覺研究。團(tuán)隊其他成員在 3D 場景重建和生成模型領(lǐng)域也經(jīng)驗豐富。

MV-DUSt3R + 的技術(shù)貢獻(xiàn)包括:

  • 單階段場景重建:2 秒內(nèi)完成復(fù)雜三維場景的重建。
  • 多視圖解碼器塊:無需相機校準(zhǔn)和姿態(tài)估計,處理任意數(shù)量的視圖。
  • 交叉視圖注意力塊:增強對不同參考視圖選擇的魯棒性。

圖片

  • 論文鏈接:https://arxiv.org/abs/2412.06974
  • 項目主頁:https://mv-dust3rp.github.io/ 
  • 代碼倉庫:https://github.com/facebookresearch/mvdust3r/

MV-DUSt3R+ 效果演示

MV-DUSt3R + 的 Github 代碼倉庫里還包含一個基于 Gradio 的互動演示。用戶可以輸入多張視圖或者一個場景視頻。演示能夠顯示由 MV-DUSt3R + 重建的點云和各個輸入視圖的相機姿態(tài)。

圖片

方法概述

單階段場景重建

2 秒內(nèi)完成復(fù)雜三維場景的重建。傳統(tǒng)方法通常采用分階段處理流程,包括相機姿態(tài)估計、局部重建,以及全局優(yōu)化來對齊各個局部重建結(jié)果。這種方法不僅流程繁瑣,而且容易在多個步驟中累積誤差。此外,全局優(yōu)化步驟需要大量計算資源,尤其在處理大規(guī)模場景時,計算時間往往從幾十秒延長到數(shù)分鐘,難以滿足實時應(yīng)用的需求。

為了解決這些問題,MV-DUSt3R+ 提出了單階段場景重建框架,通過一次前向推理即可完成整個重建流程。這種方法完全摒棄了傳統(tǒng)方法中的全局優(yōu)化步驟,而是通過高效的神經(jīng)網(wǎng)絡(luò)架構(gòu)直接輸出全局對齊的三維點云。

在實驗中,MV-DUSt3R+ 展現(xiàn)了效率優(yōu)勢:在處理 12 至 24 個視角輸入時,僅需 0.89 至 1.54 秒即可完成大規(guī)模、多房間場景的重建。這一性能比傳統(tǒng)的 DUSt3R 方法快了 48 至 78 倍,同時在重建質(zhì)量上也顯著提升。單階段的設(shè)計不僅提升了計算效率,還降低了硬件資源的消耗,為實時三維場景重建在混合現(xiàn)實、自動駕駛、機器人導(dǎo)航等領(lǐng)域的應(yīng)用鋪平了道路。

圖片

多視圖解碼器塊

無需相機校準(zhǔn)和姿態(tài)估計,處理任意數(shù)量的視圖。在多視角重建任務(wù)中,傳統(tǒng)方法通常依賴于相機內(nèi)參和外參的精確估計,這需要額外的相機校準(zhǔn)步驟,增加了系統(tǒng)復(fù)雜性和誤差風(fēng)險。

即便是一些最新的學(xué)習(xí)方法,如 DUSt3R 和 MASt3R,也只能處理兩視角重建,并需要在后續(xù)步驟中進(jìn)行全局優(yōu)化來對齊多視角信息。這種方法在處理大場景和稀疏視角輸入時,表現(xiàn)出明顯的局限性。

MV-DUSt3R+ 通過引入多視圖解碼器塊,徹底擺脫了對相機參數(shù)的依賴,能夠直接處理任意數(shù)量的視角輸入。具體來說,多視圖解碼器塊在網(wǎng)絡(luò)中充當(dāng)信息融合的關(guān)鍵角色,通過注意力機制在參考視圖和所有其他視圖之間進(jìn)行高效信息交換。

與傳統(tǒng)的兩視角方法不同,MV-DUSt3R+ 可以一次性處理多達(dá) 24 個視角,并在所有視角之間聯(lián)合學(xué)習(xí)空間關(guān)系。這種設(shè)計確保了重建結(jié)果在全局范圍內(nèi)的一致性和準(zhǔn)確性。

多視圖解碼器塊的設(shè)計還具有極高的靈活性:無論輸入視角數(shù)量多少,網(wǎng)絡(luò)都能保持高效運行,而無需重新訓(xùn)練或調(diào)整參數(shù)。這使得 MV-DUSt3R+ 能夠適應(yīng)各種實際應(yīng)用場景,從小型單房間到大型多房間甚至室外場景,均能實現(xiàn)高質(zhì)量的三維重建。

圖片

交叉視圖注意力塊

增強對不同參考視圖選擇的魯棒性。在大規(guī)模場景重建中,單一參考視圖往往無法覆蓋所有細(xì)節(jié),特別是在視角變化較大的情況下,重建質(zhì)量容易出現(xiàn)區(qū)域性偏差。為了克服這一挑戰(zhàn),MV-DUSt3R+ 在多視圖解碼器的基礎(chǔ)上引入了交叉視圖注意力塊,以增強對不同參考視圖選擇的魯棒性。 

交叉視圖注意力塊通過在多個參考視圖之間進(jìn)行信息融合,有效緩解了單一視圖信息不足的問題。具體而言,該模塊在網(wǎng)絡(luò)的多個路徑中運行,每條路徑對應(yīng)一個不同的參考視圖。通過在不同參考視圖路徑之間交換和融合特征,交叉視圖注意力塊能夠捕獲長距離的幾何信息,確保在大場景重建中,所有區(qū)域的重建質(zhì)量都能保持一致。

這種機制的優(yōu)勢在于,即使某些輸入視圖與單一參考視圖之間的立體信息較弱,也可以從其他參考視圖中獲取補充信息,從而提高整體重建精度。在實驗中,MV-DUSt3R+ 展現(xiàn)了出色的魯棒性:在多房間和稀疏視角設(shè)置下,重建結(jié)果的誤差顯著降低,同時在新視角合成任務(wù)中生成的圖像也更為精確,真實感更強。

圖片

主要實驗結(jié)果

大量實驗驗證了 MV-DUSt3R+ 在多視角立體重建、多視角相機位姿估計和新視圖合成任務(wù)中的性能提升。請參考文章詳細(xì)的實現(xiàn)細(xì)節(jié)以及表格對比,實驗結(jié)果如下所示。

數(shù)據(jù)集

訓(xùn)練數(shù)據(jù)包括 ScanNet、ScanNet++、HM3D 和 Gibson,測試數(shù)據(jù)為 MP3D、HM3D 和 ScanNet。以下為數(shù)據(jù)集特性表(表 1):

圖片

表 1: 訓(xùn)練與測試數(shù)據(jù)集對比

該團(tuán)隊采用與 DUSt3R 相同的訓(xùn)練 / 測試劃分,訓(xùn)練數(shù)據(jù)為其子集(詳見附錄)。通過隨機選擇初始幀并逐步采樣候選幀(點云重疊率在 [t_min, t_max] 范圍內(nèi)),生成輸入視圖集合 {I?}。

軌跡采樣

ScanNet 和 ScanNet++ 每場景采樣 1,000 條軌跡,總計 320 萬條;HM3D 和 Gibson 每場景采樣 6,000 條,總計 780 萬條。具體實現(xiàn)細(xì)節(jié)請參考論文原文。

多視角立體重建

采用 Chamfer Distance (CD)、Normalized Distance (ND) 和 Distance Accuracy@0.2 (DAc) 作為評估指標(biāo)。結(jié)果顯示:

圖片

  • MV-DUSt3R:在 HM3D 數(shù)據(jù)集上,與 DUSt3R 相比,ND 降低 1.7 至 2 倍,DAc 提升 1.2 至 5.3 倍。隨著輸入視圖數(shù)量增加,重建質(zhì)量顯著提升。
  • MV-DUSt3R+:12 視圖輸入下,ND 降低 1.3 倍,DAc 提升 1.2 倍。24 視圖輸入下,ND 降低 1.6 倍,DAc 提升 1.8 倍,表現(xiàn)更優(yōu)。
  • 零樣本測試:在 MP3D 數(shù)據(jù)集上,MV-DUSt3R 和 MV-DUSt3R+ 始終優(yōu)于 DUSt3R,展現(xiàn)了強大的泛化能力。

多視角相機位姿估計

MV-DUSt3R 和 MV-DUSt3R+ 在相機位姿估計中顯著優(yōu)于基線。

圖片

  • HM3D:MV-DUSt3R 的 mAE 相比 DUSt3R 降低 2.3 至 1.3 倍,MV-DUSt3R+ 降低 2.6 至 2.0 倍。
  • 其他數(shù)據(jù)集:MV-DUSt3R+ 始終優(yōu)于 DUSt3R,表現(xiàn)最佳。

新視圖合成

該團(tuán)隊采用了 PSNR、SSIM 和 LPIPS 來評估生成質(zhì)量。

圖片

  • PSNR:MV-DUSt3R+ 在所有視圖設(shè)置下表現(xiàn)最佳,顯著提升重建質(zhì)量。
  • SSIM:MV-DUSt3R+ 結(jié)構(gòu)相似性最高,隨著視圖增加視覺保真度進(jìn)一步提高。
  • LPIPS:MV-DUSt3R+ 感知誤差最低,生成的新視圖最接近真實圖像。

場景重建時間

MV-DUSt3R+ 的單階段網(wǎng)絡(luò)在 GPU 上運行,無需全局優(yōu)化(GO),顯著減少了重建時間。

  • MV-DUSt3R+:在 24 視圖輸入下,僅需 1.97 秒,速度比 DUSt3R 快 14 倍。
  • MV-DUSt3R:時間更短,僅需 0.35 秒,比 DUSt3R 快 78 倍。
  • DUSt3R:重建時間明顯更長,24 視圖輸入需 27.21 秒。

MV-DUSt3R+ 在不到 2 秒內(nèi)即可完成大場景重建,展現(xiàn)出卓越的效率與實用性。

圖片

總結(jié)和開放討論

最近一年以來,三維基座模型的新工作層出不窮,包括三維重建(比如 DUSt3R, MASt3R, MASt3R-SfM)和三維生成(比如 World Labs 3D Gen, Stability AI Stable Point Aware 3D)。

這些工作在模型創(chuàng)新上和實際效果上都取得了令人印象深刻的進(jìn)步,使得三維感知和生成技術(shù)更容易在混合現(xiàn)實,自動駕駛,大規(guī)模數(shù)字城市這些領(lǐng)域被廣泛應(yīng)用。

在這些工作當(dāng)中,MV-DUSt3R + 憑借其簡潔有效的模型設(shè)計,快速的推理,不依賴于相機參數(shù)的先驗知識和顯著提高的重建質(zhì)量脫穎而出,正在學(xué)界和開源社區(qū)獲得越來越廣泛的關(guān)注。

作者簡介

唐正綱:伊利諾伊大學(xué)厄巴納 - 香檳分校博士生,本科畢業(yè)于北京大學(xué)。研究方向是三維視覺,場景重建,變換和編輯。

圖片

嚴(yán)志程: Meta 高級科研研究員,博士畢業(yè)于美國伊利諾伊大學(xué)厄巴納 - 香檳分校,本科畢業(yè)于浙江大學(xué)。主要研究方向包括三維基礎(chǔ)模型,終端人工智能 (On-device AI) 和混合現(xiàn)實。

圖片

范雨晨: Meta 科研研究員,博士畢業(yè)于美國伊利諾伊大學(xué)厄巴納 - 香檳分校。研究方向包括三維生成,視頻理解和圖像復(fù)原。

圖片

Dilin Wang: Meta 科研研究員,博士畢業(yè)于美國得克薩斯大學(xué)奧斯汀分校。研究方向包括場景感知和三維生成。

圖片

許弘宇:Meta 科研研究員,博士畢業(yè)于美國馬里蘭大學(xué)。研究方向包括混合現(xiàn)實和視覺感知。

圖片

Alexander Schwing: 副教授,現(xiàn)任教于美國伊利諾伊大學(xué)厄巴納 - 香檳分校,博士畢業(yè)于瑞士蘇黎世理工學(xué)院。主要研究方向包括深度學(xué)習(xí)中的預(yù)測和學(xué)習(xí),多變量結(jié)構(gòu)化分布,以及相關(guān)應(yīng)用。

圖片

Rakesh Ranjan: Meta 人工智能研究主任(Research Director),主管混合現(xiàn)實和三維生成。

圖片

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-12-12 08:28:11

2023-04-24 16:25:47

3D開發(fā)

2023-08-07 15:13:28

VR模型

2024-10-06 13:00:00

AI模型

2024-12-31 07:15:00

2024-02-20 09:46:00

模型技術(shù)

2023-10-27 14:54:33

智能駕駛云計算

2024-04-19 07:55:57

Llama 3模型人工智能開源

2025-02-06 09:20:00

2021-12-22 10:04:11

模型人工智能3D

2009-11-10 12:48:17

VB.NET三維模型

2009-11-10 12:55:26

VB.NET三維模型

2024-05-21 09:41:15

3DLLM

2021-03-16 09:53:35

人工智能機器學(xué)習(xí)技術(shù)

2025-03-24 09:41:22

2024-08-19 13:35:09

2024-12-13 13:00:00

模型AI數(shù)據(jù)

2023-12-13 10:14:00

機器視覺技術(shù)

2023-12-29 09:36:51

三維模型

2022-12-21 17:12:24

模型3D
點贊
收藏

51CTO技術(shù)棧公眾號