自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR2024:VIVO提出泛化性更強(qiáng)的SAM(附源碼下載)

人工智能 新聞
由 Meta AI 開發(fā)的 Segment Anything Model(SAM)在圖像分割任務(wù)中表現(xiàn)杰出。然而,和其他類似模型一樣,SAM 在某些特定的細(xì)分應(yīng)用中也遇到了限制,這促使研究者尋找一種在不損害其固有泛化能力前提下對其進(jìn)行性能提升的策略。

本文經(jīng)計(jì)算機(jī)視覺研究院公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

圖片

  • 論文地址:https://arxiv.org/pdf/2405.00256
  • 代碼:https://asam2024.github.io/

PART/1

今天分析的是一種名為ASAM的新方法,它通過對抗微調(diào)來增強(qiáng)SAM的性能。研究者受到了自然語言處理領(lǐng)域成功應(yīng)用自然對抗樣本的啟發(fā),成功將地在計(jì)算機(jī)視覺里激發(fā)了這一方法的潛力。作者使用一個魯棒的擴(kuò)散模型對SAM-1B數(shù)據(jù)集的一個子集(1%)進(jìn)行了增強(qiáng)處理,生成了更能體現(xiàn)自然變化的、而非傳統(tǒng)的不易感知的干擾對抗樣本。ASAM保留了對抗樣本的視覺逼真性,并確保與原始的Mask標(biāo)注對齊,從而維護(hù)了分割任務(wù)的完整性。微調(diào)后的ASAM在多種圖像分割任務(wù)上展現(xiàn)出了顯著的改進(jìn),而且不需要額外的數(shù)據(jù)或改動架構(gòu)。作者的廣泛評估結(jié)果證明,ASAM在圖像分割任務(wù)中設(shè)立了新的性能基準(zhǔn),推動了計(jì)算機(jī)視覺領(lǐng)域基礎(chǔ)模型的進(jìn)步。

圖片


PART/2 背景   

基礎(chǔ)模型的概念在自然語言處理(NLP)領(lǐng)域以及近期計(jì)算機(jī)視覺領(lǐng)域的發(fā)展中起到了關(guān)鍵作用。這一概念源于NLP領(lǐng)域,具有里程碑意義的模型如BERT、GPT系列、LLaMA和PaLM,在未曾見過的任務(wù)對于零樣本泛化能力方面表現(xiàn)突出。這一成功促進(jìn)了計(jì)算機(jī)視覺領(lǐng)域類似的范式轉(zhuǎn)換模型的發(fā)展。比如DINOv2、CLIP、BLIP、SAM以及Stable Diffusion等視覺基礎(chǔ)模型在多種任務(wù)上都展示了卓越的零樣本能力和廣泛的泛化能力。在這些模型中,專注于圖像分割的Segment Anything Model(SAM)因其獨(dú)特性脫穎而出。SAM在超過10億個Mask的龐大視覺語料庫上進(jìn)行訓(xùn)練,能夠分割各種場景中的多樣化目標(biāo)和結(jié)構(gòu),為該領(lǐng)域帶來了革命性的變化。盡管表現(xiàn)印象深刻,但作為一個基礎(chǔ)模型,SAM在某些方面尚有改進(jìn)空間。

圖片

這些挑戰(zhàn)引出了本項(xiàng)工作的核心動機(jī):在不依賴額外數(shù)據(jù)、不更改基礎(chǔ)架構(gòu)且不犧牲零樣本能力的條件下,如何進(jìn)一步提升SAM作為基礎(chǔ)視覺模型的泛化性?于是,研究者便能在保持廣泛適用性的同時,釋放SAM的潛力。雖然現(xiàn)有解決方案在特定場景中有效,但并未根本上解決增強(qiáng)SAM內(nèi)在性能的挑戰(zhàn)。

為了應(yīng)對這一挑戰(zhàn),研究者從NLP領(lǐng)域獲取靈感,尤其是基礎(chǔ)模型的研究。NLP中對抗訓(xùn)練(AT)的獨(dú)特成功案例提供了新的視角。與視覺領(lǐng)域的常規(guī)對抗訓(xùn)練通常需要在模型魯棒性和性能之間做出權(quán)衡不同,NLP中的對抗訓(xùn)練不單強(qiáng)化了模型的魯棒性,也增強(qiáng)了其泛化能力和準(zhǔn)確性。這一差異可能是因?yàn)镹LP中的對抗樣本與現(xiàn)實(shí)世界中文本場景的相似性更高,例如常見的拼寫錯誤。研究者推斷,NLP中對抗訓(xùn)練的成功得益于其生成樣本的“真實(shí)性”和“自然性”。這一見解引導(dǎo)研究者探索將NLP中成功的對抗訓(xùn)練策略適用于視覺基礎(chǔ)模型像SAM這樣的模型的可能性。這種方法試圖創(chuàng)新性地利用跨領(lǐng)域的見解來改進(jìn)計(jì)算機(jī)視覺中的特定任務(wù)。

將這一理念應(yīng)用于SAM,ASAM以增強(qiáng)視覺基礎(chǔ)模型為目標(biāo),致力于利用類似于在NLP中發(fā)現(xiàn)的“自然”的對抗樣本。受到NLP中成功的優(yōu)化方法的啟發(fā),研究者提出使用這些更加“自然”的對抗樣本來微調(diào)SAM,從而避免了傳統(tǒng)對抗訓(xùn)練通常伴隨的高成本問題。生成視覺對抗樣本的傳統(tǒng)方法通常依賴于范數(shù)約束,這導(dǎo)致產(chǎn)生的干擾并不自然,并且與真實(shí)世界的噪聲有著顯著不同。這種區(qū)別導(dǎo)致了這些對抗樣本與現(xiàn)實(shí)世界中的真實(shí)挑戰(zhàn)性情景之間的偏差。

圖片

為了生成既自然又逼真的對抗性樣本以微調(diào)SAM,研究者受到最新對抗性攻擊技術(shù)ACA, NeurIPS2023[1]的啟發(fā),假設(shè)自然圖像能夠通過生成模型被投射到一個低維的流形上。這個通過自然圖像訓(xùn)練而得到的流形確保了圖像的逼真性和內(nèi)容的豐富性。通過將圖像映射到該流形,并在流形內(nèi)沿對抗方向移動,研究者可以生成既自然又逼真的對抗性樣本。

PART/3 新框架   

圖片

作者旨在從SA-1B 數(shù)據(jù)集中生成“自然”的對抗圖像,隨后使用這些生成的圖像及相應(yīng)的SA-1B Mask 來微調(diào)SAM。注意,在微調(diào)SAM時,作者不改變SAM的結(jié)構(gòu),也不加入任何額外的標(biāo)注數(shù)據(jù)。因此,作者提出的ASAM框架僅依靠其固有的數(shù)據(jù)和結(jié)構(gòu)特性,實(shí)現(xiàn)了提高SAM泛化能力的目標(biāo)。作者提出的ASAM框架主要包括兩個步驟,以下將詳細(xì)描述。

對抗隱變量優(yōu)化。 現(xiàn)有的生成對抗圖像的方法通常遵循范數(shù)約束,導(dǎo)致產(chǎn)生的擾動并不完全自然,并且與真實(shí)世界的噪聲存在域偏移。在本文中,為了生成既自然又逼真的對抗樣本以調(diào)整SAM,作者假設(shè)自然圖像可以通過生成模型(如Stable Diffusion)首先投射到低維流形上。隨后,通過優(yōu)化低維流形,作者能夠搜索到合適的對抗隱變量表示,從而有效地重新投射到自然圖像域。

可控對抗樣本生成。 上述優(yōu)化過程對隱變量添加了輕微的擾動。因此,簡單的重新投射可能導(dǎo)致生成的對抗圖像與相應(yīng)的SA-1B Mask 對齊不當(dāng)。為了解決這個問題,在優(yōu)化完成后,作者進(jìn)一步設(shè)計(jì)了控制分支,它利用ControlNet來指導(dǎo)重新投射過程。

Projecting Image to Diffusion Latent

擴(kuò)散反演通常用于將圖像投影到低維潛在空間。在擴(kuò)散模型的情況下,作者采用了DDIM反轉(zhuǎn)技術(shù),該技術(shù)利用來自提示P的條件嵌入,使用CLIP文本編碼器。

圖片

給定一個圖像 , 作者使用一個計(jì)劃  ,其中  。這種方法有效地在去噪過程的相反方向上操作(即  ,而不是  , 將圖像  投影到潛在空間的  。每張圖像的文本描述是通過 BLIPv2 生成的。

Adversarial Optimization of Latent

作者對潛在表示進(jìn)行優(yōu)化,以增強(qiáng)自然對抗圖像的生成。建立的潛在空間中,空文本嵌入確保了重建圖像的質(zhì)量,而文本嵌入保留了圖像的語義內(nèi)容。因此,同時優(yōu)化這兩個嵌入可能不會導(dǎo)致最佳結(jié)果??紤]到噪聲在潛在空間中顯著包含了圖像的細(xì)節(jié),作者選擇將優(yōu)化工作集中在它上面。

Fine-tuning SAM with Adversarial Samples

與之前改變SAM結(jié)構(gòu)的方法不同,作者的目標(biāo)是增強(qiáng)SAM的整體能力,而無需進(jìn)行任何結(jié)構(gòu)修改。為微調(diào)選擇合適的參數(shù)需要仔細(xì)考慮,包括效率以及過擬合的風(fēng)險等因素。在這方面,作者特別選擇對SAM的輸出標(biāo)記和 Mask 標(biāo)記進(jìn)行微調(diào),這部分參數(shù)僅占SAM總參數(shù)的大約。

此外,為了確保在保持泛化的同時,對對抗性樣本快速收斂,作者采用了在[24]工作中描述的學(xué)習(xí)率調(diào)度策略“慢啟動快衰減”。此外,作者提出的ASAM表明,僅使用SA-1B數(shù)據(jù)集的樣本就已經(jīng)顯著提高了性能。

PART/4  實(shí)驗(yàn)及可視化結(jié)果   

圖片

按照SAM,作者在訓(xùn)練期間未見過的數(shù)據(jù)集和任務(wù)上評估ASAM。評估數(shù)據(jù)集可能包括新的圖像分布,例如水下或以自我為中心的圖像,據(jù)作者所知,這些圖像在SA-1B中并未出現(xiàn)。作者在mIoU評估下使用了一個包含14個數(shù)據(jù)集的新編系列,這些數(shù)據(jù)集具有多樣的圖像分布,如上表所示。

圖片

與PGD和DAT等現(xiàn)有方法不同,作者的對抗樣本是由一個經(jīng)過優(yōu)化、由SAM梯度引導(dǎo)的低維流形重建的。這種方法使作者能更有效地解決SAM原始訓(xùn)練中的不足。它提供了一個更符合SAM學(xué)習(xí)范式的精細(xì)化輸入,使其能夠更有效地泛化到新或具有挑戰(zhàn)性的場景。從上圖的視覺比較中可以看出,作者提出的ASAM在原始SAM表現(xiàn)不佳的樣本上提升了性能。

圖片

圖片

責(zé)任編輯:張燕妮 來源: 計(jì)算機(jī)視覺研究院
相關(guān)推薦

2024-12-26 15:30:00

模型深度學(xué)習(xí)AI

2024-04-03 12:37:13

模型數(shù)據(jù)

2024-04-22 17:05:40

火山引擎抖音4K修復(fù)影片

2024-04-07 08:35:00

錄用論文

2024-07-01 13:12:45

銳捷網(wǎng)絡(luò)

2025-01-21 10:45:00

訓(xùn)練模型架構(gòu)

2022-11-08 15:49:28

Dubbovivo服務(wù)器

2024-03-14 09:30:04

數(shù)據(jù)庫中間件

2024-11-13 14:25:00

模型架構(gòu)

2025-04-03 09:27:44

2022-03-02 09:53:22

計(jì)算Transforme性能

2015-01-09 10:01:50

Spring MVC

2023-10-19 13:53:00

AI

2021-10-12 09:31:22

算法模型技術(shù)

2011-10-19 10:24:25

JavaScript

2021-04-29 14:53:14

谷歌強(qiáng)化學(xué)習(xí)開發(fā)

2011-05-20 15:46:45

RubyGemsRuby

2011-03-11 09:11:43

openSUSE 11
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號