即插即用,無縫集成各種模型,港科大&螞蟻等發(fā)布Edicho:圖像編輯一致性最新成果!
文章鏈接:https://arxiv.org/pdf/2412.21079
項目鏈接:https://ezioby.github.io/edicho/
亮點直擊
- 顯式對應(yīng)性引導(dǎo)一致性編輯:通過將顯式圖像對應(yīng)性融入擴(kuò)散模型的去噪過程,改進(jìn)自注意力機(jī)制與分類器自由引導(dǎo)(CFG),在保持高質(zhì)量的同時顯著提升編輯一致性。
- 融合無條件嵌入特征:受 NULL-text Inversion 技術(shù)啟發(fā),提出融合無條件嵌入特征的方法,進(jìn)一步增強(qiáng)一致性效果,實現(xiàn)更精細(xì)的編輯控制。
- 廣泛適用性與優(yōu)越性能:方法具有免訓(xùn)練和即插即用特性,適配多種擴(kuò)散模型與任務(wù)場景。通過實驗驗證,展現(xiàn)出在定量指標(biāo)與定性評估上的卓越性能。
總結(jié)速覽
解決的問題
跨圖像一致性編輯是計算機(jī)視覺和圖像處理領(lǐng)域中的重要挑戰(zhàn),尤其是面對多樣的姿態(tài)、光照條件和拍攝環(huán)境時。這種一致性編輯廣泛應(yīng)用于產(chǎn)品展示、個性化內(nèi)容創(chuàng)作以及主題活動等場景。然而,現(xiàn)有方法在處理多圖像一致性時常表現(xiàn)出不穩(wěn)定性或失真,難以滿足實際需求。
提出的方案本文提出了一種基于擴(kuò)散模型的免訓(xùn)練解決方案 Edicho。其核心設(shè)計理念是通過顯式圖像對應(yīng)性引導(dǎo)編輯過程,避免傳統(tǒng)隱式對應(yīng)性方法的局限性。包括:
- 注意力操作模塊:增強(qiáng)注意力機(jī)制,通過圖像之間的對應(yīng)性引導(dǎo)特征傳遞。
- 優(yōu)化的分類器自由引導(dǎo)(CFG)去噪策略:結(jié)合預(yù)計算的對應(yīng)性,在編輯過程中保持高質(zhì)量和一致性。
應(yīng)用的技術(shù)
- 利用擴(kuò)散模型的中間特征與生成圖像空間的對齊特性,通過顯式對應(yīng)性指導(dǎo)編輯。
- 在注意力機(jī)制中對查詢特征進(jìn)行變換,從源圖像借用相關(guān)特征,確保編輯一致性。
- 修改分類器自由引導(dǎo)的計算方式,融合無條件嵌入特征,提升一致性和圖像質(zhì)量。
- 特別設(shè)計處理真實世界場景圖像的能力,保證方法對光照、背景、視角和遮擋變化的魯棒性。
達(dá)到的效果
- 一致性提升:實現(xiàn)了多圖像間的一致性編輯,編輯結(jié)果在各種場景下保持高度協(xié)調(diào)。
- 通用性:作為推理時的算法,可與大多數(shù)基于擴(kuò)散的編輯方法(如 ControlNet 和 BrushNet)無縫兼容。
- 實用性:適用于個性化內(nèi)容創(chuàng)作、3D重建以及一致性紋理應(yīng)用,擴(kuò)展了編輯工具的適用范圍。
- 高效性:無需訓(xùn)練數(shù)據(jù),具備即插即用特性,能夠直接應(yīng)用于實際任務(wù),代碼公開以支持進(jìn)一步研究。
方法
本文專注于一致性圖像編輯任務(wù),即同時對多張圖像進(jìn)行操作以實現(xiàn)一致且統(tǒng)一的視覺效果。首先利用現(xiàn)有的視覺理解方法提取圖像對之間的顯式語義對應(yīng)性。再借助構(gòu)建于 Stable Diffusion 之上的預(yù)訓(xùn)練編輯模型,通過這些預(yù)計算的顯式對應(yīng)性指導(dǎo)去噪過程,從而確保編輯的一致性。
本節(jié)首先回顧擴(kuò)散模型的一些基本概念,隨后討論顯式對應(yīng)性指導(dǎo)的去噪過程,該過程包括兩個層次:注意力特征層和噪聲隱空間變量層。需要注意的是,這些特征操作僅應(yīng)用于部分去噪步驟和層級,以保留預(yù)訓(xùn)練模型的強(qiáng)生成先驗。
預(yù)備知識
擴(kuò)散模型是一類概率生成模型,通過逐步添加和去除噪聲的過程進(jìn)行訓(xùn)練。前向過程將噪聲添加到圖像中,具體如下:
無分類器引導(dǎo)(CFG)
無分類器引導(dǎo)(CFG)是一種創(chuàng)新技術(shù),旨在通過擴(kuò)散模型在不依賴額外分類器的情況下提高生成圖像的質(zhì)量和多樣性。具體而言,CFG 引入了一個混合系數(shù),用于融合去噪模型生成的條件預(yù)測和無條件預(yù)測。無條件預(yù)測通常通過將條件設(shè)置為空或默認(rèn)值來獲得。
編輯的參考網(wǎng)絡(luò)
最近的編輯方法 [25, 60] 通過在預(yù)訓(xùn)練的大型擴(kuò)散模型上學(xué)習(xí)一個額外的參考網(wǎng)絡(luò)來實現(xiàn)編輯,同時保持預(yù)訓(xùn)練骨干網(wǎng)絡(luò)固定。這種網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)保持的設(shè)計成功地將控制信號與預(yù)訓(xùn)練的生成先驗分離開。
對應(yīng)性比較與預(yù)測
對應(yīng)性比較
為了實現(xiàn)一致性編輯的目標(biāo),首先從顯式和隱式對應(yīng)性之間的比較開始匹配。顯式提取器通過單次前向過程從輸入圖像中預(yù)測對應(yīng)性,并將此預(yù)測應(yīng)用于所有目標(biāo)網(wǎng)絡(luò)層和去噪步驟。而隱式提取器則通過計算每一層和去噪步驟中注意力查詢與鍵的相似性來預(yù)測對應(yīng)性。如同之前的無訓(xùn)練編輯方法,這些對應(yīng)性隨后被應(yīng)用于當(dāng)前層和步驟以進(jìn)行編輯。
此外,對于案例 (a)、(b) 和 (c),選擇了不同的網(wǎng)絡(luò)層和去噪步驟 (1, 10)、(2, 15)、(4, 25) 進(jìn)行提取,以實現(xiàn)更全面的探索,其中(x,y)表示擴(kuò)散模型的解碼器層編號和去噪步驟編號。上面圖 2 中的可視化結(jié)果表明,通過顯式預(yù)測獲得的對應(yīng)性明顯比隱式方法更準(zhǔn)確。而且,隱式方法的預(yù)測結(jié)果隨著網(wǎng)絡(luò)層和去噪步驟的變化往往變得不穩(wěn)定。這些結(jié)果與之前的研究 [50, 59] 一致,表明只有生成模型的特定層或步驟適合有效的視覺理解,例如點匹配。
不準(zhǔn)確的對應(yīng)性匹配會在執(zhí)行跨圖像注意力時引入不準(zhǔn)確的特征,這阻礙了僅基于隱式注意力的編輯方法的編輯一致性。這進(jìn)一步強(qiáng)化了本文引入更穩(wěn)健的顯式對應(yīng)性來指導(dǎo)去噪過程的動機(jī)。
對應(yīng)性預(yù)測
使用對應(yīng)性的注意力操作
無分類器引導(dǎo)與對應(yīng)關(guān)系
其中, T表示融合函數(shù),用于對齊無條件噪聲, t表示時間步長。
實驗
實驗設(shè)置
設(shè)置:使用Stable Diffusion 作為基礎(chǔ)模型,并采用BrushNet 和ControlNet 作為編輯的參考網(wǎng)絡(luò)。采用DDIM調(diào)度器,并進(jìn)行50步的去噪。默認(rèn)情況下,提出的基于對應(yīng)關(guān)系的去噪策略應(yīng)用于第4步到第40步,并從第8個注意力層開始應(yīng)用,以確保一致性并保持強(qiáng)大的生成先驗。需要注意的是,在使用不同基礎(chǔ)模型時,這些選擇的最優(yōu)設(shè)置可能有所不同。測試樣本部分來自互聯(lián)網(wǎng),其他樣本來自DreamBooth和Custom Diffusion的數(shù)據(jù)集。
評估指標(biāo):遵循Custom Diffusion的方法,采用流行的多模態(tài)模型CLIP來評估各種方法在文本對齊(TA)和編輯一致性(EC)方面的表現(xiàn)。具體來說,一方面,通過計算目標(biāo)提示和模型輸出的特征相似度來判斷文本對齊;另一方面,通過計算編輯圖像的特征相似度來評估編輯一致性。此外,還納入了用戶研究(US)來進(jìn)一步評估實際應(yīng)用性和用戶滿意度。
基準(zhǔn):包含了局部和全局編輯任務(wù),并且與眾多先前的圖像編輯方法進(jìn)行了全面對比。具體來說,對于局部編輯任務(wù),包括了Adobe Firefly 、Anydoor和Paint-by-Example等先前的工作進(jìn)行比較。
在上述方法中,F(xiàn)irefly是Adobe開發(fā)的最先進(jìn)的商業(yè)圖像修復(fù)工具,可以根據(jù)給定的文本提示重新繪制輸入圖像的局部區(qū)域。為了實現(xiàn)一致的編輯任務(wù),該組圖像將根據(jù)相同的詳細(xì)提示進(jìn)行修復(fù)。Anydoor和Paint-by-example都是支持根據(jù)給定參考圖像重新繪制目標(biāo)區(qū)域的隱空間變量擴(kuò)散模型(LDM)。因此,我們將修復(fù)后的圖像發(fā)送給這些模型作為參考,期望得到一致的編輯結(jié)果。
對于全局編輯,將本文的方案與MasaCtrl、StyleAlign和Cross-image attention進(jìn)行比較。上述方法通過操作和融合來自不同源的注意力特征來實現(xiàn)編輯。與本文的方法不同,它們通過計算注意力權(quán)重中的隱式對應(yīng)關(guān)系來確保編輯結(jié)果的一致性。
評估
定性結(jié)果:本文展示了對一致性編輯方法的定性評估,重點關(guān)注局部編輯(圖像修復(fù))和全局編輯(圖像轉(zhuǎn)換)。在下圖4中的局部編輯比較中,本文的方法、Adobe Firefly (AF)、Anydoor (AD)和Paint-by-Example (PBE)的結(jié)果進(jìn)行了展示。結(jié)果表明,本文的方法通過引入顯式的對應(yīng)關(guān)系,始終保持了輸入圖像在不同修改下的完整性,包括衣物紋理、面罩和領(lǐng)口外觀,甚至鞋子的孔眼數(shù)量。
全局編輯的基準(zhǔn)主要包括僅由隱式注意力預(yù)測的方案——MasaCtrl (MC)、StyleAligned (SA)和Cross-Image-Attention (CIA)。如下圖5所示,本文的方法也在編輯過程中取得了更好的一致性和主題一致性,如貓的裙子。與之相比,隱式方法(如MasaCtrl)在汽車車頂、精靈的高領(lǐng)以及機(jī)器人的孔洞數(shù)量方面未能實現(xiàn)一致的編輯。
定量結(jié)果:對本文提出的方法進(jìn)行了全面的定量評估,重點關(guān)注文本對齊(TA)和編輯一致性(EC)指標(biāo)。正如下表1所示,在局部編輯任務(wù)中,本文的方法在TA和EC得分上均取得了最佳成績,展示了相較于其他方法的顯著改進(jìn)。在全局編輯任務(wù)中,本文的方法繼續(xù)超越其他對比方法,達(dá)到了0.3228的TA得分和0.9355的EC得分。這些結(jié)果清楚地證明了本文的方法在實現(xiàn)局部和全局編輯場景中的高文本對齊和編輯一致性方面的有效性。
消融實驗
為了驗證所提出的基于對應(yīng)關(guān)系的注意力操作(Corr-Attention)和基于對應(yīng)關(guān)系的CFG(Corr-CFG)的有效性,我們通過分別禁用其中一個方法,并在一致性編輯任務(wù)上進(jìn)行測試來進(jìn)行消融實驗。當(dāng)禁用所提出的基于對應(yīng)關(guān)系的注意力操作(Corr-Attention)時,擴(kuò)散模型依賴于隱式注意力對應(yīng)關(guān)系來保持一致性,類似于之前的方法[1,7]。如下圖6(a)所示,生成模型會產(chǎn)生錯誤數(shù)量的花朵,并且位置不當(dāng)?;ǘ涞臄?shù)量和紋理的不一致證明了引入顯式對應(yīng)關(guān)系到注意力操作中的有效性。
基于對應(yīng)關(guān)系的CFG(Corr-CFG)旨在通過在LDM的潛空間中進(jìn)行更精細(xì)的一致性控制,這一點在圖6(b)中得到了驗證,Corr-CFG生成了更一致的花朵紋理和碗底的條紋。
額外的應(yīng)用和結(jié)果
基于一致性編輯的定制化:為了進(jìn)一步展示所提方法的實際應(yīng)用,我們展示了一個集成DreamBooth和低秩適應(yīng)(LoRA)技術(shù)的定制化圖像生成應(yīng)用示例。利用我們方法生成的編輯輸出,我們采用DreamBooth對生成模型進(jìn)行500步的微調(diào),以進(jìn)行概念注入。同時,我們還整合了LoRA技術(shù),通過引入低秩矩陣作為適應(yīng)參數(shù),進(jìn)一步提高了這一過程的效率。如下圖7所示,微調(diào)后的生成模型能夠生成與編輯對應(yīng)的理想圖像。因此,新的概念生成和概念編輯可以通過這種方式實現(xiàn),成為一致性編輯的應(yīng)用示例。
基于一致性編輯的3D重建:一致性編輯還能夠促進(jìn)編輯內(nèi)容的3D重建。我們通過神經(jīng)回歸器實現(xiàn)了3D重建,該回歸器能夠根據(jù)一致的圖像對預(yù)測準(zhǔn)確的3D場景表示。以編輯后的圖像為輸入,學(xué)習(xí)到的神經(jīng)回歸器能夠預(yù)測3D點云模型和2D匹配點,而不需要其他輸入,如相機(jī)參數(shù)。重建和匹配結(jié)果如下圖8所示,結(jié)果也進(jìn)一步表明了我們方法的編輯一致性。該回歸器分別為兩組編輯獲取了11,515對和13,800對匹配點,且僅展示了其中的一部分以便清晰理解。
額外結(jié)果:我們提供了通過所提方法實現(xiàn)的多圖像修復(fù)和轉(zhuǎn)換的多樣結(jié)果,如下圖9(a)和(b)所示。圖9(c)展示了包含三張圖像的圖像集的編輯結(jié)果。
結(jié)論
本文提出了Edicho,一種新穎的免訓(xùn)練的方法,通過利用不同圖像之間的顯式對應(yīng)關(guān)系,實現(xiàn)一致性的圖像編輯。本文的方法通過將對應(yīng)關(guān)系信息整合到去噪過程中,增強(qiáng)了自注意力機(jī)制和無分類器引導(dǎo)計算,從而確保了編輯的一致性。方法的即插即用特性使其能夠無縫集成到各種模型中,且適用于廣泛的任務(wù)。
在局限性方面,有時由于對應(yīng)關(guān)系的錯位,生成的紋理可能不一致,預(yù)計隨著更好的對應(yīng)關(guān)系提取器的出現(xiàn),這一問題能夠得到改進(jìn)。并且,由于繼承了預(yù)訓(xùn)練的編輯模型,偶爾會生成失真紋理。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
