自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

VPR 2024 滿分論文!Meta提出EfficientSAM:快速分割一切!

人工智能 新聞
Meta 研究者提出了另外一種改進(jìn)思路 —— 利用 SAM 的掩碼圖像預(yù)訓(xùn)練 (SAMI)。這是通過利用 MAE 預(yù)訓(xùn)練方法和 SAM 模型實現(xiàn)的,以獲得高質(zhì)量的預(yù)訓(xùn)練 ViT 編碼器。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

EfficientSAM 這篇工作以5/5/5滿分收錄于CVPR 2024!作者在某社交媒體上分享了該結(jié)果,如下圖所示:

LeCun 圖靈獎得主也強烈推薦了該工作!

圖片

在最近的一項研究中,Meta 研究者提出了另外一種改進(jìn)思路 —— 利用 SAM 的掩碼圖像預(yù)訓(xùn)練 (SAMI)。這是通過利用 MAE 預(yù)訓(xùn)練方法和 SAM 模型實現(xiàn)的,以獲得高質(zhì)量的預(yù)訓(xùn)練 ViT 編碼器。


圖片


  • 論文鏈接:https://arxiv.org/pdf/2312.00863
  • 代碼:github.com/yformer/EfficientSAM
  • 主頁:https://yformer.github.io/efficient-sam/

這一方法降低了 SAM 的復(fù)雜性,同時能夠保持良好的性能。具體來說,SAMI 利用 SAM 編碼器 ViT-H 生成特征嵌入,并用輕量級編碼器訓(xùn)練掩碼圖像模型,從而從 SAM 的 ViT-H 而不是圖像補丁重建特征,產(chǎn)生的通用 ViT 骨干可用于下游任務(wù),如圖像分類、物體檢測和分割等。然后,研究者利用 SAM 解碼器對預(yù)訓(xùn)練的輕量級編碼器進(jìn)行微調(diào),以完成任何分割任務(wù)。

為了評估該方法,研究者采用了掩碼圖像預(yù)訓(xùn)練的遷移學(xué)習(xí)設(shè)置,即首先在圖像分辨率為 224 × 224 的 ImageNet 上使用重構(gòu)損失對模型進(jìn)行預(yù)訓(xùn)練,然后使用監(jiān)督數(shù)據(jù)在目標(biāo)任務(wù)上對模型進(jìn)行微調(diào)。

通過 SAMI 預(yù)訓(xùn)練,可以在 ImageNet-1K 上訓(xùn)練 ViT-Tiny/-Small/-Base 等模型,并提高泛化性能。對于 ViT-Small 模型,研究者在 ImageNet-1K 上進(jìn)行 100 次微調(diào)后,其 Top-1 準(zhǔn)確率達(dá)到 82.7%,優(yōu)于其他最先進(jìn)的圖像預(yù)訓(xùn)練基線。

研究者在目標(biāo)檢測、實例分割和語義分割上對預(yù)訓(xùn)練模型進(jìn)行了微調(diào)。在所有這些任務(wù)中,本文方法都取得了比其他預(yù)訓(xùn)練基線更好的結(jié)果,更重要的是在小模型上獲得了顯著收益。

論文作者 Yunyang Xiong 表示:本文提出的 EfficientSAM 參數(shù)減少了 20 倍,但運行時間快了 20 倍,只與原始 SAM 模型的差距在 2 個百分點以內(nèi),大大優(yōu)于 MobileSAM/FastSAM。

圖片

在 demo 演示中,點擊圖片中的動物,EfficientSAM 就能快速將物體進(jìn)行分割:

圖片

EfficientSAM 還能準(zhǔn)確標(biāo)定出圖片中的人:

圖片

試玩地址:https://ab348ea7942fe2af48.gradio.live/

方法

EfficientSAM 包含兩個階段:1)在 ImageNet 上對 SAMI 進(jìn)行預(yù)訓(xùn)練(上);2)在 SA-1B 上微調(diào) SAM(下)。

EfficientSAM 主要包含以下組件:

交叉注意力解碼器:在 SAM 特征的監(jiān)督下,本文觀察到只有掩碼 token 需要通過解碼器重建,而編碼器的輸出可以在重建過程中充當(dāng)錨點(anchors)。在交叉注意力解碼器中,查詢來自于掩碼 token,鍵和值源自編碼器的未掩碼特征和掩碼特征。本文將來自交叉注意力解碼器掩碼 token 的輸出特征和來自編碼器的未掩碼 token 的輸出特征進(jìn)行合并,以進(jìn)行 MAE 輸出嵌入。然后,這些組合特征將被重新排序到最終 MAE 輸出的輸入圖像 token 的原始位置。

線性投影頭。研究者通過編碼器和交叉注意力解碼器獲得的圖像輸出,接下來將這些特征輸入到一個小型項目頭(project head)中,以對齊 SAM 圖像編碼器中的特征。為簡單起見,本文僅使用線性投影頭來解決 SAM 圖像編碼器和 MAE 輸出之間的特征維度不匹配問題。

重建損失。在每次訓(xùn)練迭代中,SAMI 包括來自 SAM 圖像編碼器的前向特征提取以及 MAE 的前向和反向傳播過程。來自 SAM 圖像編碼器和 MAE 線性投影頭的輸出會進(jìn)行比較,從而計算重建損失。

經(jīng)過預(yù)訓(xùn)練,編碼器可以對各種視覺任務(wù)的特征表示進(jìn)行提取,而且解碼器也會被廢棄。特別是,為了構(gòu)建用于分割任何任務(wù)的高效 SAM 模型,本文采用 SAMI 預(yù)訓(xùn)練的輕量級編碼器(例如 ViT-Tiny 和 ViT-Small)作為 EfficientSAM 的圖像編碼器和 SAM 的默認(rèn)掩碼解碼器,如圖所示 2(底部)。本文在 SA-1B 數(shù)據(jù)集上對 EfficientSAM 模型進(jìn)行微調(diào),以實現(xiàn)分割任何任務(wù)。

實驗

圖像分類。為了評估本文方法在圖像分類任務(wù)上的有效性,研究者將 SAMI 思想應(yīng)用于 ViT 模型,并比較它們在 ImageNet-1K 上的性能。

如表 1 將 SAMI 與 MAE、iBOT、CAE 和 BEiT 等預(yù)訓(xùn)練方法以及 DeiT 和 SSTA 等蒸餾方法進(jìn)行了比較。

SAMI-B 的 top1 準(zhǔn)確率達(dá)到 84.8%,比預(yù)訓(xùn)練基線、MAE、DMAE、iBOT、CAE 和 BEiT 都高。與 DeiT 和 SSTA 等蒸餾方法相比,SAMI 也顯示出較大的改進(jìn)。對于 ViT-Tiny 和 ViT-Small 等輕量級模型,SAMI 結(jié)果與 DeiT、SSTA、DMAE 和 MAE 相比有顯著的增益。

目標(biāo)檢測和實例分割。本文還將經(jīng)過 SAMI 預(yù)訓(xùn)練的 ViT 主干擴(kuò)展到下游目標(biāo)檢測和實例分割任務(wù)上,并將其與在 COCO 數(shù)據(jù)集上經(jīng)過預(yù)訓(xùn)練的基線進(jìn)行比較。如表 2 所示, SAMI 始終優(yōu)于其他基線的性能。

圖片

這些實驗結(jié)果表明,SAMI 在目標(biāo)檢測和實例分割任務(wù)中所提供的預(yù)訓(xùn)練檢測器主干非常有效。

語義分割。本文進(jìn)一步將預(yù)訓(xùn)練主干擴(kuò)展到語義分割任務(wù),以評估其有效性。結(jié)果如表 3 所示,使用 SAMI 預(yù)訓(xùn)練主干網(wǎng)的 Mask2former 在 ImageNet-1K 上比使用 MAE 預(yù)訓(xùn)練的主干網(wǎng)實現(xiàn)了更好的 mIoU。這些實驗結(jié)果驗證了本文提出的技術(shù)可以很好地泛化到各種下游任務(wù)。

圖片

表 4 將 EfficientSAMs 與 SAM、MobileSAM 和 SAM-MAE-Ti 進(jìn)行比較。在 COCO 上,EfficientSAM-Ti 的性能優(yōu)于 MobileSAM。EfficientSAM-Ti 具有 SAMI 預(yù)訓(xùn)練權(quán)重,也比 MAE 預(yù)訓(xùn)練權(quán)重表現(xiàn)更好。 

此外, EfficientSAM-S 在 COCO box 僅比 SAM 低 1.5 mIoU,在 LVIS box 上比 SAM 低 3.5 mIoU,參數(shù)減少了 20 倍。本文還發(fā)現(xiàn),與 MobileSAM 和 SAM-MAE-Ti 相比,EfficientSAM 在多次點擊(multiple click)方面也表現(xiàn)出了良好的性能。

表 5 展示了零樣本實例分割的 AP、APS、APM 和 APL。研究者將 EfficientSAM 與 MobileSAM 和 FastSAM 進(jìn)行了比較,可以看到,與 FastSAM 相比,EfficientSAM-S 在 COCO 上獲得了超過 6.5 個 AP,在 LVIS 上獲得了 7.8 個 AP。就 EffidientSAM-Ti 而言,仍然遠(yuǎn)遠(yuǎn)優(yōu)于 FastSAM,在 COCO 上為 4.1 個 AP,在 LVIS 上為 5.3 個 AP,而 MobileSAM 在 COCO 上為 3.6 個 AP,在 LVIS 上為 5.5 個 AP。

而且,EfficientSAM 比 FastSAM 輕得多,efficientSAM-Ti 的參數(shù)為 9.8M,而 FastSAM 的參數(shù)為 68M。

圖 3、4、5 提供了一些定性結(jié)果,以便讀者對 EfficientSAMs 的實例分割能力有一個補充性了解。



更多研究細(xì)節(jié),可參考原論文。

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2023-05-04 12:19:47

模型AI

2024-07-30 10:51:51

2023-10-05 12:28:41

AI論文

2023-04-10 15:52:57

模型樣本

2023-12-07 07:16:57

Meta訓(xùn)練

2023-10-04 18:55:51

論文模型

2023-08-09 17:38:47

模型AI

2023-04-27 09:27:44

視頻AI

2023-07-17 13:14:45

模型分割

2016-08-31 17:24:05

大數(shù)據(jù)分析

2012-12-31 11:22:58

開源開放

2023-06-27 17:35:39

FastSAM模型SAM

2020-09-11 10:55:10

useState組件前端

2023-11-22 11:40:00

Meta模型

2021-02-28 09:47:54

軟件架構(gòu)軟件開發(fā)軟件設(shè)計

2012-11-05 15:22:59

康普光纜DCD

2023-04-25 11:36:17

CV模型

2025-03-13 11:11:04

2023-04-25 17:06:38

視覺任務(wù)

2018-11-23 11:17:24

負(fù)載均衡分布式系統(tǒng)架構(gòu)
點贊
收藏

51CTO技術(shù)棧公眾號