自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

分割一切深度圖!港科技、南洋理工等開(kāi)源「SAD」:根據(jù)幾何信息分割圖像

人工智能 新聞
SAD是第一個(gè)使用SAM直接利用渲染后的深度圖提取幾何信息的模型。

本月初,Meta推出的一款可以「分割一切」的模型Segment Anything Model (SAM) 已經(jīng)引起了廣泛的關(guān)注。今天,我們向大家介紹一款名為「Segment Any RGBD(SAD)」的機(jī)器學(xué)習(xí)模型。與以往所有使用SAM的工具的不同之處在于,SAD讀入的圖片可以是經(jīng)過(guò)渲染之后的深度圖,讓SAM直接根據(jù)幾何信息來(lái)分割圖像。該項(xiàng)目是由Visual Intelligence Lab@HKUST, HUST, MMLab@NTU, Smiles Lab@XJTU和NUS的同學(xué)完成的。如果大家覺(jué)得這個(gè)項(xiàng)目有意思的話(huà),請(qǐng)大家多多star~

圖片

演示程序鏈接:https://huggingface.co/spaces/jcenaa/Semantic_Segment_AnyRGBD

代碼鏈接:https://github.com/Jun-CEN/SegmentAnyRGBD

圖片

簡(jiǎn)介

人類(lèi)可以從深度圖的可視化中自然地識(shí)別物體,所以研究人員首先通過(guò)顏色映射函數(shù)將深度圖([H,W])映射到RGB空間([H,W,3]),然后將渲染的深度圖像輸入 SAM。

與RGB圖像相比,渲染后的深度圖像忽略了紋理信息,而側(cè)重于幾何信息。

以往基于 SAM 的項(xiàng)目里SAM 的輸入圖像都是 RGB 圖像, 該團(tuán)隊(duì)是第一個(gè)使用 SAM 直接利用渲染后的深度圖提取幾何信息的。

下圖顯示了具有不同顏色圖函數(shù)的深度圖具有不同的 SAM 結(jié)果。

圖片

模型流程圖如下圖所示,作者提供了兩種選擇,包括將 RGB 圖像或渲染的深度圖像輸入到 SAM進(jìn)行分割,在每種模式下,用戶(hù)都可以獲得Semantic Mask(一種顏色代表一個(gè)類(lèi)別)和帶有類(lèi)別的 SAM  Mask。

圖片

以輸入為深度圖為例子進(jìn)行說(shuō)明。首先通過(guò)顏色映射函數(shù)將深度圖([H,W])映射到RGB空間([H,W,3]),然后將渲染后的深度圖送入SAM進(jìn)行分割。

同時(shí)使用OVSeg對(duì)RGB圖進(jìn)行zero-shot語(yǔ)義分割,只需要輸入一系列候選類(lèi)別的名稱(chēng)即可完成類(lèi)別識(shí)別。然后每一個(gè)SAM的mask的類(lèi)別會(huì)根據(jù)當(dāng)前mask里面的點(diǎn)的語(yǔ)義分割結(jié)果進(jìn)行投票,選擇點(diǎn)數(shù)最多的類(lèi)別當(dāng)成當(dāng)前mask的類(lèi)別。

最終輸出可視化有兩種形式,一種是Semantic mask,即一種顏色對(duì)應(yīng)一種類(lèi)別;另一種是SAM mask with classes,即輸出的mask仍然是SAM的mask,并且每一個(gè)mask都有類(lèi)別。并且可以根據(jù)深度圖將2D的結(jié)果投影到3D space進(jìn)行可視化。

對(duì)比效果

作者將RGB送入SAM進(jìn)行分割與將渲染后的深度圖送入SAM進(jìn)行分割進(jìn)行了對(duì)比。

  • RGB圖像主要表示紋理信息,而深度圖像包含幾何信息,因此RGB圖像比渲染的深度圖像色彩更豐富。在這種情況下,SAM 為 RGB 輸入提供的掩碼比深度輸入多得多,如下圖所示。

圖片

  • 渲染的深度圖像減輕了 SAM 的過(guò)分割。例如,桌子在RGB圖像上被分割成四個(gè)部分,其中一個(gè)在語(yǔ)義結(jié)果中被分類(lèi)為椅子(下圖中的黃色圓圈)。相比之下,桌子在深度圖像上被視為一個(gè)整體對(duì)象并被正確分類(lèi)。人的頭部的一部分在RGB圖像上被分類(lèi)為墻壁(下圖中的藍(lán)色圓圈),但在深度圖像上卻被很好地分類(lèi)。
  • 距離很近的兩個(gè)物體在深度圖上可能被分割為一個(gè)物體,比如紅圈中的椅子。在這種情況下,RGB 圖像中的紋理信息對(duì)于找出對(duì)象比較關(guān)鍵。

Demo

圖片

圖片

作者表示,希望SAD模型能夠帶來(lái)更多的啟發(fā)和創(chuàng)新,也期待著反饋和建議。讓我們一起探索這個(gè)神奇的機(jī)器學(xué)習(xí)世界吧!

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-07-30 10:51:51

2023-07-17 13:14:45

模型分割

2023-10-05 12:28:41

AI論文

2023-05-04 12:19:47

模型AI

2024-03-01 10:04:11

研究訓(xùn)練編碼器

2023-04-27 09:27:44

視頻AI

2023-04-10 15:52:57

模型樣本

2023-04-23 15:42:18

圖像視頻

2023-04-25 11:36:17

CV模型

2023-10-24 19:06:59

模型訓(xùn)練

2011-11-30 09:28:37

iCloud信息圖云計(jì)算

2023-11-22 11:40:00

Meta模型

2025-03-13 11:11:04

2023-12-07 07:16:57

Meta訓(xùn)練

2023-12-06 13:36:00

模型數(shù)據(jù)

2023-04-18 15:08:46

模型圖像

2021-01-06 13:50:19

人工智能深度學(xué)習(xí)人臉識(shí)別

2024-10-08 08:19:19

2023-12-10 15:21:39

2023-07-05 14:06:43

視頻AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)