擴(kuò)散模型新突破!無需微調(diào),就能高效穩(wěn)定移除目標(biāo)物體
本文的共同第一作者為浙江工商大學(xué)統(tǒng)計(jì)與數(shù)學(xué)學(xué)院碩士生孫文灝和阿里巴巴算法工程師崔奔雷,本文的通訊作者為浙江工商大學(xué)統(tǒng)計(jì)與數(shù)學(xué)學(xué)院董雪梅教授。
最近,擴(kuò)散模型在生成模型領(lǐng)域異軍突起,憑借其獨(dú)特的生成機(jī)制在圖像生成方面大放異彩,尤其在處理高維復(fù)雜數(shù)據(jù)時(shí)優(yōu)勢(shì)明顯。然而,盡管擴(kuò)散模型在圖像生成任務(wù)中表現(xiàn)優(yōu)異,但在圖像目標(biāo)移除任務(wù)中仍然面臨諸多挑戰(zhàn)?,F(xiàn)有方法在移除前景目標(biāo)后,可能會(huì)留下殘影或偽影,難以實(shí)現(xiàn)與背景的自然融合。
為了解決這些問題,本文提出了一種基于擴(kuò)散模型且無需微調(diào)的方法 ——Attentive Eraser,以增強(qiáng)預(yù)訓(xùn)練擴(kuò)散模型目標(biāo)移除的能力,從而實(shí)現(xiàn)穩(wěn)定有效的目標(biāo)移除。實(shí)驗(yàn)結(jié)果表明,該方法在多種預(yù)訓(xùn)練擴(kuò)散模型中均表現(xiàn)出優(yōu)異的目標(biāo)移除能力,甚至優(yōu)于基于訓(xùn)練的方法,且無需微調(diào),具有很強(qiáng)的可擴(kuò)展性。
該研究論文已被人工智能頂會(huì) AAAI 2025 錄用并選為 Oral Presentation。
- 論文標(biāo)題:Attentive Eraser: Unleashing Diffusion Model's Object Removal Potential via Self-Attention Redirection Guidance
- 論文鏈接:https://arxiv.org/pdf/2412.12974
- Github 地址:https://github.com/Anonym0u3/AttentiveEraser
- Diffusers Pipeline:https://github.com/huggingface/diffusers/tree/main/examples/community#stable-diffusion-xl-attentive-eraser-pipeline
- Model Scope Demo:https://www.modelscope.cn/studios/Anonymou3/AttentiveEraser
- Hugging Face Demo:https://huggingface.co/spaces/nuwandaa/AttentiveEraser
問題背景
目前,擴(kuò)散模型的廣泛應(yīng)用使得生成與真實(shí)照片質(zhì)量相媲美的高質(zhì)量圖像成為可能,并能夠根據(jù)用戶的需求提供逼真的視覺呈現(xiàn)。這引發(fā)了一個(gè)自然的問題:這些模型的圖像生成能力是否可以被用于從圖像中移除特定目標(biāo)。這個(gè)被稱為 “目標(biāo)移除” 的任務(wù)是圖像重繪(Image Inpainting)的一種特殊形式,并需要解決兩個(gè)關(guān)鍵問題。首先,用戶指定的目標(biāo)必須能夠被成功且有效地從圖像中移除。其次,被移除的區(qū)域需要填充內(nèi)容,這些內(nèi)容必須真實(shí)、合理,并與圖像整體保持一致性以確保視覺上的連貫性。
近年來擴(kuò)散模型中最具代表性的開源預(yù)訓(xùn)練模型是 Stable Diffusion(SD),其作為一種隱變量擴(kuò)散模型在多種圖像生成任務(wù)中表現(xiàn)優(yōu)異。然而,直接將其應(yīng)用在重繪 pipeline 上進(jìn)行目標(biāo)移除時(shí)效果卻不盡人意,往往會(huì)出現(xiàn)偽影導(dǎo)致目標(biāo)移除不成功,如圖 1(SD w/o SARG)所示:
圖 1 Stable Diffusion 模型應(yīng)用 SARG 前后目標(biāo)移除效果對(duì)比圖
為了將 SD 應(yīng)用于目標(biāo)移除任務(wù),SD-inpainting 通過在模型中引入掩碼作為附加條件并進(jìn)行微調(diào),構(gòu)建成了一個(gè)端到端的圖像重繪模型。然而,即使付出了大量資源成本,SD-inpainting 在目標(biāo)移除任務(wù)中的性能依然不夠穩(wěn)定,經(jīng)常無法完全移除目標(biāo),還是會(huì)生成隨機(jī)偽影。除了基于模型微調(diào)的方法外,還有一種通過提示工程(prompt engineering)引導(dǎo)擴(kuò)散模型完成目標(biāo)移除的技術(shù)。盡管這類方法在某些場景下可以取得令人滿意的結(jié)果,但其顯著缺點(diǎn)在于,需要投入大量精力進(jìn)行提示構(gòu)建,同時(shí)難以與前景目標(biāo)區(qū)域?qū)崿F(xiàn)精確交互。此外,這類方法同樣需要耗費(fèi)大量資源進(jìn)行模型微調(diào),進(jìn)一步限制了其實(shí)用性。
為了解決上述問題,本文提出了一種基于擴(kuò)散模型且無需微調(diào)的目標(biāo)移除方法,具體貢獻(xiàn)如下:
(1)本文提出了一種無需微調(diào)的方法 ——Attentive Eraser,旨在激發(fā)預(yù)訓(xùn)練擴(kuò)散模型的目標(biāo)移除潛能。該方法由兩個(gè)關(guān)鍵組成部分構(gòu)成:1)注意力激活和抑制(Attention Activation and Suppression,AAS),這是一種專門設(shè)計(jì)用于修改預(yù)訓(xùn)練擴(kuò)散模型中自注意力機(jī)制的方法,可在生成圖像時(shí)增強(qiáng)模型對(duì)背景的注意力,同時(shí)降低對(duì)前景目標(biāo)物體的注意力。同時(shí)針對(duì)生成過程中自注意力本身帶來的對(duì)相似物體的高依賴性問題,本文提出了相似性抑制(Similarity Suppression,SS),有效地解決了該問題。2)自注意力重定向引導(dǎo)(Self-Attention Redirection Guidance,SARG),這是一種新穎的逆向擴(kuò)散采樣過程引導(dǎo)方法,利用所提出的 AAS 將采樣過程引導(dǎo)到目標(biāo)移除的方向,進(jìn)一步提升了目標(biāo)移除的效果。
(2)通過一系列實(shí)驗(yàn)和用戶偏好研究,本文驗(yàn)證了所提出方法的有效性、魯棒性和可擴(kuò)展性。實(shí)驗(yàn)結(jié)果表明,本文的方法在目標(biāo)移除的質(zhì)量和穩(wěn)定性方面均超越了現(xiàn)有的最先進(jìn)方法。
AttentiveEraser 核心創(chuàng)新
本文提出的 Attentive Eraser 免微調(diào)目標(biāo)移除方法的總體框架圖如圖 2 所示,其中有兩個(gè)主要部分:(a)AAS,這是一種專為目標(biāo)移除任務(wù)設(shè)計(jì)的自注意力機(jī)制修改操作,針對(duì)目標(biāo)移除任務(wù)中固有的挑戰(zhàn),AAS 通過對(duì)自注意力機(jī)制進(jìn)行精細(xì)調(diào)整,使得模型在生成前景目標(biāo)區(qū)域時(shí)能夠更加關(guān)注背景內(nèi)容,而非前景目標(biāo),進(jìn)而在生成結(jié)果圖中消除目標(biāo)的外觀信息。此外,SS 可抑制由于自注意力的固有特性而可能導(dǎo)致的對(duì)相似物體的過度關(guān)注;(b)SARG,這是一種應(yīng)用于逆向擴(kuò)散采樣過程的引導(dǎo)方法,它利用通過 AAS 重定向的自注意力來引導(dǎo)采樣過程指向目標(biāo)移除的方向。在這種引導(dǎo)下,擴(kuò)散模型能夠更好地消除掩碼區(qū)域內(nèi)的前景目標(biāo),并生成與背景自然融洽的圖像內(nèi)容。
圖 2 Attentive Eraser 的總體框架圖
創(chuàng)新一:注意力抑制與激活(AAS)
動(dòng)機(jī)分析
圖 3 去噪網(wǎng)絡(luò)不同層在所有時(shí)間步上的平均自注意力圖的可視化圖
圖 3 中,在輸入圖像經(jīng)過 DDIM inversion 后,利用主成分分析和聚類技術(shù),對(duì)逆向擴(kuò)散去噪過程中去噪網(wǎng)絡(luò)的不同層在所有時(shí)間步上的平均自注意力圖進(jìn)行了可視化。通過這些可視化結(jié)果,可以觀察到自注意力圖顯示出類似于圖像各個(gè)組成部分的語義布局。這種布局清晰地展示了前景物體和背景在生成過程中所對(duì)應(yīng)的自注意力的顯著差異,表明它們?cè)谀P椭械奶幚矸绞酱嬖诿鞔_的區(qū)分。這種語義布局為目標(biāo)移除任務(wù)提供了重要的啟示,為了在生成過程中有效地去除前景目標(biāo),一個(gè)直觀的方法是在生成過程中將前景物體的自注意力逐漸 “融合” 到背景中,使其與背景區(qū)域的注意力更加趨同。換句話說,在生成過程中與前景目標(biāo)相關(guān)的區(qū)域應(yīng)更關(guān)注背景區(qū)域,同時(shí)減少對(duì)自身的關(guān)注。前景目標(biāo)的自注意力逐漸向背景轉(zhuǎn)移有助于消除前景物體,使其自然地消隱于背景之中。此外,考慮到目標(biāo)移除任務(wù)的特殊性,前景目標(biāo)是處理的核心,背景區(qū)域應(yīng)在生成過程中保持固定不變,且不受前景區(qū)域變化的影響。因此,為了實(shí)現(xiàn)更自然的生成效果,背景區(qū)域?qū)η熬皡^(qū)域的關(guān)注度也應(yīng)適當(dāng)?shù)亟档停瑥亩苊馍蛇^程中背景被不必要地干擾。這一策略確保了生成結(jié)果與背景的自然融合,使生成圖像顯得更加和諧、真實(shí)。
專為目標(biāo)移除設(shè)計(jì)的自注意力機(jī)制修改方法
結(jié)合上述分析,本文提出了一種針對(duì)目標(biāo)移除任務(wù)設(shè)計(jì)的簡單而有效的方法 ——AAS,如圖 2(a)所示,AAS 方法的核心在于通過調(diào)整自注意力機(jī)制,靈活控制前景目標(biāo)區(qū)域與背景區(qū)域之間的關(guān)系,從而實(shí)現(xiàn)更為自然的目標(biāo)移除效果。
注意力激活的目的是通過增加前景目標(biāo)區(qū)域生成內(nèi)容對(duì)背景區(qū)域的注意力,即增加,從而確保前景目標(biāo)被移除后,生成的內(nèi)容能夠與背景自然融合。這一過程的關(guān)鍵在于增強(qiáng)前景區(qū)域生成內(nèi)容對(duì)背景的關(guān)注度,使得前景區(qū)域在生成過程中更多地參考背景的特征信息,進(jìn)而生成與背景風(fēng)格一致的圖像內(nèi)容。這種增強(qiáng)能夠有效地避免前景移除后出現(xiàn)與背景不協(xié)調(diào)的情況,確保生成圖像的整體連貫性和視覺一致性。
與此相反,注意力抑制是指抑制前景目標(biāo)區(qū)域關(guān)于其外觀及其對(duì)背景影響的信息,即減少,達(dá)到抹除前景目標(biāo)的效果。降低
的目的是抑制前景區(qū)域?qū)ψ陨硗庥^信息的關(guān)注,逐步抹除前景目標(biāo)的原始語義信息。這意味著在逆向擴(kuò)散去噪過程中,前景目標(biāo)的特征信息將被逐步削弱直至完全消失而背景區(qū)域的生成過程則保持不變,以確保背景的完整性。此外,降低
的作用在于減少背景區(qū)域?qū)η熬皡^(qū)域的依賴,避免背景區(qū)域在前景移除過程中受到不必要的影響。
相似性抑制
盡管上述理論在目標(biāo)移除任務(wù)中展現(xiàn)了顯著的效果,但其仍存在一個(gè)重要的局限性。具體而言,當(dāng)背景中包含與前景目標(biāo)相似的內(nèi)容時(shí),由于自注意力機(jī)制的固有特性,在生成過程中這些相似部分的注意力可能會(huì)高于其他區(qū)域。這種情況會(huì)導(dǎo)致擴(kuò)散模型在去除前景目標(biāo)時(shí),誤將背景中相似的部分保留,從而無法徹底去除目標(biāo)(見圖 2(a)右側(cè)的一個(gè)例子)。這一問題的存在表明,單純依靠上述理論可能不足以應(yīng)對(duì)復(fù)雜場景中具有相似特征的前景和背景目標(biāo)的區(qū)分與處理。
因此,為了減少對(duì)相似目標(biāo)的關(guān)注并將其分散到其他區(qū)域,本文提出了一種較為直接且有效的擴(kuò)展策略引入到 AAS 中來解決上述問題:通過簡單地引入一個(gè)小于 1 的相似性抑制系數(shù)來降低相似性矩陣
方差。本文將該方法稱為相似性抑制(SS)?;?SoftMax 函數(shù)的權(quán)重計(jì)算機(jī)制,減少
方差可以在一定程度上削弱生成過程過度關(guān)注高相似度區(qū)域的傾向,同時(shí)增加對(duì)背景其他區(qū)域的注意力,由此來抑制生成過程中可能出現(xiàn)的相似物體,從而減少目標(biāo)去除不徹底的情況。
創(chuàng)新二:自注意力重定向引導(dǎo)(SARG)
為了進(jìn)一步提高目標(biāo)去除能力以及生成圖像的整體質(zhì)量,本文受 Ahn 等人提出的 PAG(PAG:Ahn D, Cho H, Min J, et al. Self-rectifying diffusion sampling with perturbed-attention guidance [C]. European Conference on Computer Vision. Springer, Cham, 2025: 1-17.)啟發(fā),將經(jīng)過 AAS 處理后的去噪網(wǎng)絡(luò)看作是噪聲
預(yù)測(cè)過程中的一種擾動(dòng)形式,通過這種擾動(dòng)來引導(dǎo)采樣過程朝向理想方向。因此,修正后的擴(kuò)散模型的預(yù)測(cè)噪聲可以定義如下:
這種引導(dǎo)過程的優(yōu)勢(shì)在于,通過調(diào)整自注意力機(jī)制,SARG 能夠在生成過程中不斷優(yōu)化生成策略,使模型更加靈活地適應(yīng)不同場景下的目標(biāo)移除需求。同時(shí),通過優(yōu)化生成過程的各個(gè)時(shí)間步,SARG 還提高了最終生成圖像的質(zhì)量,通過合理地控制生成過程中的注意力分配,SARG 確保了最終生成圖像與背景之間的自然融合,減少了它們之間的突兀感,從而提高了圖像的視覺一致性和自然度,確保了高質(zhì)量的目標(biāo)移除效果。
實(shí)驗(yàn)亮點(diǎn):AttentiveEraser 的穩(wěn)定目標(biāo)擦除能力及高拓展性
對(duì)比實(shí)驗(yàn)的定量和定性結(jié)果
表 1 對(duì)比實(shí)驗(yàn)定量結(jié)果表
從定量分析的結(jié)果來看,盡管在全局質(zhì)量指標(biāo) FID 和 LPIPS 上,本文的方法表現(xiàn)處于平均水平,但這兩個(gè)指標(biāo)并不能充分反映目標(biāo)去除的效果。進(jìn)一步分析 Local-FID 指標(biāo),該指標(biāo)評(píng)估生成區(qū)域的視覺質(zhì)量與背景的真實(shí)分布的吻合程度,可以看到我們的方法在局部移除方面展現(xiàn)出色的表現(xiàn),顯著優(yōu)于其他方法,說明在局部區(qū)域細(xì)節(jié)上我們方法生成的內(nèi)容與真實(shí)圖像分布更接近。同時(shí),CLIP consensus 指標(biāo)通過計(jì)算多次生成結(jié)果的標(biāo)準(zhǔn)偏差,揭示了方法在不同隨機(jī)種子下生成結(jié)果的一致性。從結(jié)果可以明顯看到其他基于擴(kuò)散模型的方法的標(biāo)準(zhǔn)偏差較大,說明了它們應(yīng)用在目標(biāo)移除任務(wù)時(shí)的不穩(wěn)定性,而我們的結(jié)果展現(xiàn)了顯著更低的標(biāo)準(zhǔn)偏差,說明我們方法的穩(wěn)定性顯著優(yōu)于對(duì)比方法,更傾向于生成一致性高的圖像。而 CLIP Score 指標(biāo)直接反映目標(biāo)是否被有效去除且背景是否被合理重建,實(shí)驗(yàn)結(jié)果表明我們的方法能夠高效地去除目標(biāo),并在重繪前景區(qū)域時(shí)與背景高度一致。在 CLIP Score 指標(biāo)上,我們的方法與當(dāng)前領(lǐng)先的基于快速傅立葉卷積的重繪模型 LAMA 達(dá)到了相當(dāng)?shù)母偁幩?,并在特定場景中表現(xiàn)出更強(qiáng)的背景適配能力。
圖 4 對(duì)比實(shí)驗(yàn)定性結(jié)果圖
圖 5 目標(biāo)移除穩(wěn)定性實(shí)驗(yàn)結(jié)果對(duì)比圖
對(duì)比實(shí)驗(yàn)的定性結(jié)果如圖 4 所示,其中輸入圖像中的掩碼以紅色高亮顯示,本文的方法以粗體標(biāo)出。從圖中可以觀察到本文的方法與其他方法之間的顯著差異。LAMA 由于缺乏生成能力,雖然能成功去除目標(biāo),但生成的內(nèi)容顯得模糊且不清晰。相比之下,其他基于擴(kuò)散模型的方法都存在一個(gè)普遍的問題,即目標(biāo)移除的不穩(wěn)定性,這種不穩(wěn)定性往往導(dǎo)致隨機(jī)偽影的出現(xiàn),無法生成與背景連貫一致的內(nèi)容。為了進(jìn)一步證實(shí)這一問題,本文進(jìn)行了目標(biāo)移除穩(wěn)定性實(shí)驗(yàn),結(jié)果如圖 5 所示。圖中展示了每種方法在使用三種不同隨機(jī)種子下的目標(biāo)移除結(jié)果??梢郧宄乜吹?,本文的方法在各個(gè)版本的 SD 模型中都能實(shí)現(xiàn)穩(wěn)定的目標(biāo)移除,生成的內(nèi)容一致且連貫。而其他方法則難以保持這種穩(wěn)定性,目標(biāo)移除效果因隨機(jī)性而產(chǎn)生較大的波動(dòng),難以實(shí)現(xiàn)與背景一致的生成效果。
用戶偏好研究和 GPT-4o 評(píng)估
表 2 用戶偏好研究和 GPT-4o 評(píng)估結(jié)果表
由于缺乏針對(duì)目標(biāo)移除任務(wù)的有效指標(biāo),上述指標(biāo)可能不足以證明本文方法的優(yōu)越性。因此,本文進(jìn)一步進(jìn)行了用戶偏好研究(User Study)以驗(yàn)證本文方法的實(shí)際效果。表 2 列出了用戶對(duì)各種方法的偏好百分比,結(jié)果表明本文的方法比其他方法更受用戶青睞。這一發(fā)現(xiàn)與對(duì)比試驗(yàn)的結(jié)果一致,進(jìn)一步驗(yàn)證了本文方法在目標(biāo)移除任務(wù)中的有效性和優(yōu)越性,突出表明該方法在實(shí)際應(yīng)用中的表現(xiàn)優(yōu)于其他現(xiàn)有方法。
此外為了進(jìn)一步表明本文提出方法的優(yōu)越性,我們還利用 GPT-4o 對(duì)本文的方法和用戶偏好研究中排名第二方法 LAMA 之間的目標(biāo)移除性能進(jìn)行了進(jìn)一步評(píng)估。在該對(duì)比實(shí)驗(yàn)中,我們要求 GPT-4o 根據(jù)設(shè)計(jì)好的公平合理的文本提示選擇目標(biāo)移除效果最佳的圖像。具體的文本提示如下:“你是一個(gè)生成圖像評(píng)估專家?,F(xiàn)有兩張圖和對(duì)應(yīng)的掩碼,請(qǐng)從以下方面進(jìn)行評(píng)估:1. 生成圖像是否有效移除了掩碼內(nèi)目標(biāo)且在掩碼區(qū)域內(nèi)生成和背景一致的內(nèi)容,2. 掩碼內(nèi)目標(biāo)的生成內(nèi)容的真實(shí)感。根據(jù)以上標(biāo)準(zhǔn),請(qǐng)告訴我哪張圖片更好。” 最終,計(jì)算了本文的方法和 LAMA 被選擇的頻率,以此衡量各自的目標(biāo)移除性能。評(píng)估結(jié)果在表 2 中,結(jié)果也表明本文的方法明顯優(yōu)于 LAMA,表現(xiàn)出卓越的性能。通過這些實(shí)驗(yàn),本文的方法不僅在生成圖像的整體質(zhì)量上優(yōu)于 LAMA,還在目標(biāo)移除的準(zhǔn)確性和生成內(nèi)容的真實(shí)感方面展現(xiàn)了顯著的優(yōu)勢(shì)。
魯棒性和可拓展性分析
圖 6 Attentive Eraser 對(duì)輸入掩碼的魯棒性實(shí)驗(yàn)結(jié)果圖
圖 7 在 solarsync 模型上應(yīng)用 Attentive Eraser 去除卡通圖像目標(biāo)的結(jié)果圖
由于 Attentive Eraser 是一個(gè)基于掩碼的方法,因此我們?cè)趯?shí)驗(yàn)中進(jìn)一步證明了其對(duì)輸入掩碼的魯棒性,并展示了其在其他預(yù)訓(xùn)練擴(kuò)散模型上的可拓展性。
如圖 6 所示,我們通過三種不同精細(xì)度的掩碼類型來評(píng)估該方法的魯棒性,按從細(xì)致到粗糙可以將掩碼分為:實(shí)例分割掩碼、分割邊界框掩碼和手繪掩碼??梢钥闯?,即使使用較為粗糙的手繪掩碼,我們的方法依然能夠有效去除目標(biāo)并生成合理的前景內(nèi)容。這表明,Attentive Eraser 的性能并不依賴于掩碼的精細(xì)程度,具有極高的魯棒性。同時(shí),這種魯棒性也為用戶提供了更多的靈活性和便捷性,無論是使用精細(xì)的自動(dòng)生成的分割掩碼,還是手工繪制的粗略掩碼,用戶都能夠獲得理想的目標(biāo)移除效果。
此外,如圖 7 所示,我們的方法不僅適用于生成自然圖像的預(yù)訓(xùn)練擴(kuò)散模型(例如 SD1.5、SD2.1 等),還可以擴(kuò)展到生成動(dòng)漫圖像的模型,如 Civital 平臺(tái)上的 solarsync 模型,體現(xiàn)出了 Attentive Eraser 在不同預(yù)訓(xùn)練擴(kuò)散模型和架構(gòu)上的可拓展性和廣泛適用性,無論是用于自然圖像還是動(dòng)漫圖像的目標(biāo)移除任務(wù),均能發(fā)揮出色的效果。
通過這些實(shí)驗(yàn),我們充分展示了 Attentive Eraser 的魯棒性和可拓展性,為其在實(shí)際應(yīng)用中的廣泛應(yīng)用提供了堅(jiān)實(shí)的理論與實(shí)驗(yàn)支持。
Demo 演示
- Demo 已發(fā)布在魔搭社區(qū)創(chuàng)空間及 Hugging Face spaces:
- https://www.modelscope.cn/studios/Anonymou3/AttentiveEraser
- https://huggingface.co/spaces/nuwandaa/AttentiveEraser
更多詳情,請(qǐng)參閱論文原文。