自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

分割一切「3D高斯」版來了:幾毫秒完成3D分割、千倍加速

人工智能 新聞
有了上海交大和華為提出的 SAGA,輻射場中的交互式 3D 分割任務實現(xiàn)起來會更快、效果更好。

今年 4 月,Meta 發(fā)布「分割一切(SAM)」AI 模型,這項成果不僅成為很多 CV 研究者心中的年度論文,更是在 ICCV 2023 上斬獲最佳論文提名 。

「分割一切」實現(xiàn)了 2D 分割的「既能」和「又能」,可以輕松地執(zhí)行交互式分割和自動分割,且能泛化到任意新任務和新領域。

現(xiàn)在,這種思路也延展到了 3D 分割領域。

輻射場中的交互式 3D 分割一直是個備受關注的課題,在場景操作、自動標注和 VR 等多個領域均有潛在應用價值。以往的方法主要是通過訓練特征場來模仿自監(jiān)督視覺模型提取的多視角 2D 特征,從而將 2D 視覺特征提升到 3D 空間,然后利用 3D 特征的相似性來衡量兩個點是否屬于同一個物體。

這種方法由于分割管道簡單,因此速度很快,但代價是分割粒度較粗,因為它們缺乏解析嵌入特征信息的機制(如分割解碼器)。

與此相反,另一種范式是將多視角細粒度 2D 分割結果直接投影到 3D 掩 ma 網格上,從而將 2D 分割基礎模型提升到 3D。雖然這種方法可以獲得精確的分割結果,但由于需要多次運行基礎模型和體渲染,大量的時間開銷限制了交互體驗。特別是對于需要分割多個對象的復雜場景,這種計算成本變得難以承受。

近期,3D Gaussian Splatting(3DGS)因其高質量和實時渲染的能力,為輻射場交互式 3D 分割帶來了新的突破。它采用一組 3D 彩色高斯來表示 3D 場景,高斯的平均值表示它們在 3D 空間中的位置,因此 3DGS 可以看作是一種點云,它有助于繞過對空曠 3D 空間的大量處理,并提供豐富的顯式 3D 先驗。有了這種類似于點云的結構,3DGS 不僅能實現(xiàn)高效的渲染,還能成為分割任務的理想候選對象。

受到這種方法的啟發(fā),在最近的一篇論文中,來自上海交大和華為的研究者在 3DGS 的基礎上提出了將 2D 的「分割一切」模型的細粒度分割能力提煉到 3D 高斯中。

圖片

論文鏈接:https://arxiv.org/pdf/2312.00860.pdf

這一策略有別于以往將 2D 視覺特征提升到 3D 的方法,實現(xiàn)了精細的 3D 分割。此外,它還避免了推理過程中耗時的 2D 分割模型的多次 forward。這種蒸餾是通過使用 Segment Anything Model(SAM)根據自動提取的掩碼訓練高斯 3D 特征來實現(xiàn)的。在推理過程中,通過輸入提示生成一組查詢,然后通過高效的特征匹配檢索預期的高斯。

研究者將這種方法命名為 Segment Any 3D GAussians (SAGA),可在幾毫秒內實現(xiàn)精細的三維分割,并支持各種提示,包括點、涂鴉和掩碼。對現(xiàn)有基準的評估表明,SAGA 的分割質量與之前的 SOTA 水平相當。

圖片

作為在 3D 高斯中進行交互式分割的首次嘗試,SAGA 具有多功能性,可適應各種提示類型,包括掩碼、點和涂鴉。值得注意的是,高斯特征的訓練通常只需 5-10 分鐘即可完成。隨后,大多數目標對象的分割可在幾毫秒內完成,實現(xiàn)了近 1000 倍的加速。

圖片

方法概覽

下圖 2 為 SAGA 的整體 pipeline。給定預訓練的 3DGS 模型及其訓練集,研究者首先使用 SAM 編碼器來提取一個 2D 特征圖圖片,以及 I 中每個圖像 I ∈ R^H×W 的一組多粒度掩碼 M^SAM_I。接著基于提取的掩碼來訓練一個低維特征 f_g ∈ R^C,以聚合交叉視圖一致的多粒度分割信息(其中 C 表示特征維度,默認值設置為了 32)。這些通過精心設計的 SAM 引導損失來實現(xiàn)。

為了進一步增強特征緊湊性,研究者從提取的掩碼中導出點對應關系,并將它們提煉為特征(即對應損失)。

圖片

在推理階段,對于具有相機姿態(tài) v 的特定視圖,研究者基于輸入提示 P 來生成一組查詢 Q。接著通過與學得的特征進行高效特征匹配,使用這些查詢來檢索對應目標的 3D 高斯。

此外,研究者還引入了一種高效的后處理操作,利用類點云結構的 3DGS 提供的強大 3D 先驗來細化檢索到的 3D 高斯。

高斯訓練特征

給定一個具有特定相機姿態(tài) v 的訓練圖像 I,研究者首先根據預訓練的 3DGS 模型圖片來渲染對應的特征圖。像素 p 的渲染后特征 F^r_I,p 計算為如下公式 (3)。

圖片

SAM 引導的損失。研究者提出使用 SAM 生成的特征來做引導。如上圖 2 所示,他們首先采用一個 MLP φ,將 SAM 特征映射到與 3D 特征相同的低維空間。

圖片

對應關系損失。在實踐中,研究者發(fā)現(xiàn)使用 SAM 引導損失學得的特征在緊湊性上不夠,從而導致各種提示的分割質量下降。他們從以往的對比對應關系蒸餾方法中汲取靈感,提出用對應關系損失來解決問題。掩碼對應關系 K_I (p1, p2) 定義如下公式(8)。


圖片

推理

3D 高斯的分割可以利用 2D 渲染的特征來實現(xiàn)。這一特性使得 SAGA 兼容了各種提示,包括點、涂鴉和掩碼。此外基于 3DGS 提供的 3D 先驗,研究者還引入了一種高效的后處理算法。

基于 3D 先驗的后處理

3D 高斯的初始分割圖片存在兩個問題,分別是存在多余的噪聲高斯,缺少對目標對象至關重要的特定高斯。為了解決這兩個問題,研究者利用了傳統(tǒng)的點云分割技術,包括統(tǒng)計過濾和區(qū)域生長。

對于基于點和涂鴉提示的分割,他們使用統(tǒng)計過濾來過濾掉噪聲高斯。對于掩碼提示和基于 SAM 的提示,他們分別將 2D 掩碼映射到圖片圖片上,前者得到一組驗證后的高斯,后者消除不想要的高斯。

所得到的驗證后的高斯作為區(qū)域生成算法的種子(seed)。最后使用基于球查詢的區(qū)域生長算法來從原始模型圖片中檢索目標需要的所有高斯。

實驗評估

研究者在定量實驗中使用了 NVOS(Neural Volumetric Object Selection)和 SPIn-NeRF 兩個數據集,在定性實驗中使用了 LLFF、MIP-360、T&T 和 LERF 數據集。此外他們使用 SA3D 來為 LERF-figurines 場景中的一些對象做注釋,以展現(xiàn) SAGA 能夠取得更好的權衡效率和分割質量。

定量結果

NVOS 數據集。研究者遵照 SA3D 的方法來處理 NVOS 數據集提供的涂鴉,以滿足 SAM 的要求。結果如下表 1 所示,SAGA 能夠媲美以往的 SOTA 方法 SA3D,并顯著優(yōu)于 ISRF 和 SGISRF 等以往基于特征模擬的方法,展現(xiàn)了自身的細粒度分割質量。

SPIn-NeRF 數據集。研究者遵照 SPIn-NeRF 方法來進行標簽傳播評估,其中指定了一個視圖及它的 ground-truth 掩碼,并將該掩碼傳播給其他視圖以檢查掩碼的準確性,這一操作可以視為掩碼提示。結果如下表 2 所示,SAGA 在僅用千分之一的時間便取得了與 MVSeg 和 SA3D 相當的性能。

與 SA3D 比較。為了進一步展示 SAGA 的有效性,研究者在分割時間和質量兩個指標上與 SA3D 進行了比較。他們基于 LERF-figurines 場景運行 SA3D,為很多對象提供了一組注釋。然后使用 SAGA 來分割相同的對象,并檢查了每個對象的 IoU 和時間開銷。結果如下表 3 所示,展示了 SAGA 可以使用更少的時間獲得更高質量的 3D 資產。

定性結果

研究者首先確定了 SAGA 的分割精度與先前的 SOTA SA3D 相當,同時顯著降低了時間成本。隨后,他們展示了 SAGA 在部件和目標分割任務中比 ISRF 更強的性能。結果如圖 3 所示。

第一行顯示了 SA3D 和 SAGA 對 LERF-figurines 場景的分割結果,每個分割對象的右下方標注了分割時間;第二行比較了 SAGA 和 ISRF,后者通過模仿自監(jiān)督視覺 transformer(如 DINO [4])提取的 2D 特征來訓練特征字段;第三行展示了 MIP360-counter 和 T&T-truck 場景的其他分割結果。

在表 2 中有一些失敗案例,與之前的 SOTA 方法相比,SAGA 的性能并不理想。這是因為 LLFF-room 場景的分割失敗,暴露了 SAGA 的局限性。圖 4 展示了彩色高斯平均值,它可以看作是一種點云,SAGA 容易受到 3DGS 模型幾何重建不足的影響。

圖片

更多技術細節(jié)和實驗結果請閱讀原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-04-07 08:35:00

3DAI生成

2012-11-26 12:51:44

木材3D打

2011-08-26 14:50:23

2024-05-16 09:24:17

3D技術

2025-02-13 08:26:26

2019-12-23 10:22:05

AI 數據人工智能

2023-12-07 13:07:59

3D模型訓練

2017-03-21 15:20:57

英特爾3D XPoint閃存

2024-04-12 15:10:12

框架模型

2011-10-06 13:30:45

宏碁投影儀

2024-06-17 12:33:34

2021-03-18 15:29:10

人工智能機器學習技術

2013-12-11 16:55:23

3DDCIM解決方案

2011-05-26 10:08:14

2011-05-26 10:05:07

優(yōu)派投影機

2011-04-26 14:21:20

3DJVC投影機

2023-03-03 21:42:18

鴻蒙

2012-08-13 17:11:37

Silverlight

2009-02-02 08:50:42

SilverlightRIA3D圖像

2011-09-22 10:07:52

奧圖碼投影儀
點贊
收藏

51CTO技術棧公眾號