精細(xì)化圖像編輯!LocInv:優(yōu)化交叉注意力泄漏問題(國科大&巴塞羅那自治大學(xué))
論文鏈接:https://arxiv.org/pdf/2405.01496
大規(guī)模文本到圖像(T2I)擴(kuò)散模型展示了基于文本prompt的顯著生成能力?;赥2I擴(kuò)散模型,圖像編輯研究旨在賦予用戶通過改變文本prompt來操作生成的圖像。然而,現(xiàn)有的圖像編輯技術(shù)往往會(huì)在超出預(yù)期目標(biāo)區(qū)域的意外區(qū)域進(jìn)行編輯,主要是由于交叉注意力圖中的不準(zhǔn)確性。為了解決這個(gè)問題,本文提出了感知反演(LocInv),它利用分割圖或邊界框作為額外的定位先驗(yàn)來在擴(kuò)散過程的去噪階段中優(yōu)化交叉注意力圖。通過動(dòng)態(tài)更新文本輸入中對(duì)應(yīng)于名詞的token,本文迫使交叉注意力圖與文本prompt中的正確名詞和形容詞緊密對(duì)齊?;谶@種技術(shù),本文實(shí)現(xiàn)了對(duì)特定對(duì)象的精細(xì)圖像編輯,同時(shí)防止對(duì)其他區(qū)域進(jìn)行不需要的更改。本文的方法LocInv,基于公開可用的Stable Diffusion,在COCO數(shù)據(jù)集的子集上進(jìn)行了廣泛評(píng)估,無論是在定量上還是在定性上都得到了優(yōu)越的結(jié)果。
介紹
文本到圖像(T2I)模型取得了顯著的進(jìn)展,并展示了生成多樣且逼真圖像的前所未有的能力。T2I模型是在龐大的語言-圖像數(shù)據(jù)集上進(jìn)行訓(xùn)練的,需要大量的計(jì)算資源。然而,盡管它們具有令人印象深刻的能力,但它們并不直接支持實(shí)際圖像編輯,并且它們通常缺乏精確控制圖像中特定區(qū)域的能力。
最近的關(guān)于文本引導(dǎo)圖像編輯的研究允許用戶僅使用文本prompt來操縱圖像。在本文中,專注于文本引導(dǎo)編輯,旨在改變圖像中特定源對(duì)象的視覺外觀?,F(xiàn)有的一些方法[29, 37, 39, 52]使用DDIM反演來獲得圖像的初始潛在代碼,然后在去噪階段應(yīng)用他們提出的編輯技術(shù)。然而,目前的文本引導(dǎo)編輯方法容易導(dǎo)致圖像區(qū)域的意外變化。這是由于現(xiàn)有編輯技術(shù)在交叉注意力圖的精確性上的重度依賴所致。
DPL觀察到DDIM和NTI的交叉注意力圖不僅與相應(yīng)的對(duì)象相關(guān)。這一現(xiàn)象歸因于交叉注意力泄漏,這是阻礙這些圖像編輯方法應(yīng)用于復(fù)雜多對(duì)象圖像的主要因素。為了解決這個(gè)問題,DPL通過引入額外的注意力損失來增強(qiáng)交叉注意力。然而,DPL依賴于名詞及其相關(guān)對(duì)象之間相對(duì)較弱的連接。這種連接有時(shí)傾向于較弱,并導(dǎo)致性能不佳。此外,鑒于最近文本為基礎(chǔ)的分割和檢測(cè)基礎(chǔ)模型的進(jìn)展,現(xiàn)在可以很容易地將強(qiáng)大的定位先驗(yàn)自動(dòng)引入到通用應(yīng)用中。
在本文中,引入了定位先驗(yàn)以提供增強(qiáng)的對(duì)抗交叉注意力泄漏的方法。引入定位先驗(yàn)后,本文的方法,名為定位感知反演(LocInv),涉及在每個(gè)時(shí)間步更新與對(duì)象相關(guān)的token表示,這是一種類似于動(dòng)態(tài)prompt學(xué)習(xí)的技術(shù)。在分割和檢測(cè)場景中,本文優(yōu)化了兩個(gè)損失,即相似性損失和重疊損失,以確保交叉注意力圖與提供的先驗(yàn)密切對(duì)齊。此外,為了適應(yīng)形容詞描述其相關(guān)名詞詞的情況,本文還加入了額外的相似性損失來加強(qiáng)它們之間的聯(lián)系。在實(shí)驗(yàn)中,本文對(duì)從MSCOC收集的COCO-edit數(shù)據(jù)集上的交叉注意力圖的質(zhì)量進(jìn)行了定量評(píng)估。本文進(jìn)一步將LocInv與P2P結(jié)合起來,與其他圖像編輯方法進(jìn)行比較。LocInv展現(xiàn)出優(yōu)越的評(píng)估指標(biāo)和改進(jìn)的用戶評(píng)估。此外,本文還以定性的方式展示了Word-Swap和Attribute-Edit的prompt編輯結(jié)果。
相關(guān)工作
基于反演的編輯 主要依賴于DDIM反演,該方法通過確定性地計(jì)算和編碼上下文信息到潛在空間中,然后使用這種潛在表示重構(gòu)原始圖像,在編輯任務(wù)中顯示了潛力。然而,當(dāng)應(yīng)用無分類器指導(dǎo)(CFG)時(shí),DDIM在文本引導(dǎo)擴(kuò)散模型中被發(fā)現(xiàn)缺乏必要的意義編輯。利用對(duì)空文本embedding的優(yōu)化,Null-Text反演(NTI)在應(yīng)用CFG時(shí)進(jìn)一步提高了圖像重建質(zhì)量,并保留了Stable Diffusion模型豐富的文本引導(dǎo)編輯能力。負(fù)面prompt反演(NPI)和ProxNPI在生成類似的競爭性重建結(jié)果的同時(shí),減少了反演步驟的計(jì)算成本。直接反演通過在每個(gè)時(shí)間步調(diào)整編輯方向來進(jìn)一步增強(qiáng)反演技術(shù),以提供必要的內(nèi)容保護(hù)和編輯保真度。IterInv 將反演泛化到DeepFloyd-IF T2I模型。
文本引導(dǎo)編輯 方法[3, 10, 26, 28, 29]采用了大型預(yù)訓(xùn)練文本到圖像(T2I)模型來進(jìn)行可控圖像編輯。其中,Imagic和P2P通過Stable Diffusion(SD)模型嘗試進(jìn)行結(jié)構(gòu)保持編輯。然而,Imagic 需要為每張圖像微調(diào)整個(gè)模型。而P2P則無需對(duì)模型進(jìn)行微調(diào),而是通過將原始圖像的交叉注意力映射分配給相應(yīng)文本token中的編輯后圖像來重新訓(xùn)練圖像結(jié)構(gòu)。InstructPix2Pix是對(duì)P2P的擴(kuò)展,允許使用人類般的指令進(jìn)行圖像編輯。NTI進(jìn)一步使P2P能夠處理真實(shí)圖像。最近,pix2pix-zero提出了噪聲正則化和交叉注意力指導(dǎo),以重新訓(xùn)練給定圖像的結(jié)構(gòu)。DiffEdit通過對(duì)比根據(jù)不同文本prompt條件預(yù)測(cè)而生成突出顯示輸入圖像區(qū)域的mask。PnP證明了通過操縱T2I模型中的空間特征和自注意力映射可以保留圖像結(jié)構(gòu)。
還有文本引導(dǎo)修補(bǔ)方法[15, 33, 38, 45]來實(shí)現(xiàn)給定用戶特定mask的編輯目的。例如,Blended diffusion從預(yù)先訓(xùn)練的無條件擴(kuò)散模型中進(jìn)行了調(diào)整,并使用CLIP分?jǐn)?shù)鼓勵(lì)輸出與文本prompt對(duì)齊?;旌蠞撛跀U(kuò)散(BLD)進(jìn)一步擴(kuò)展到了LDM。然而,修補(bǔ)方法主要集中在填充指定區(qū)域的任意對(duì)象,同時(shí)確保與周圍區(qū)域的視覺連貫性。這些方法并不固有地保留源對(duì)象和目標(biāo)對(duì)象之間的語義相似性,這是圖像翻譯效果所需的。
基于文本的分割和檢測(cè)模型旨在在預(yù)訓(xùn)練后利用語言泛化特性對(duì)任意類別進(jìn)行分割或檢測(cè)。其中最具代表性的基于prompt的分割模型之一是SAM。給定一張圖像和視覺prompt(框、點(diǎn)、文本或mask),SAM分別使用圖像和prompt編碼器對(duì)圖像和promptembedding進(jìn)行編碼,然后將它們合并在一個(gè)輕量級(jí)的mask解碼器中,以預(yù)測(cè)分割mask。類似的工作還包括CLIPSeg、OpenSeg、GroupViT等。對(duì)于基于prompt的目標(biāo)檢測(cè)器,GroundingDINO以將DINO檢測(cè)器與語言預(yù)訓(xùn)練相結(jié)合,實(shí)現(xiàn)了開放集泛化,成為最先進(jìn)的方法之一。除此之外,MaskCLIP、Xdecoder、UniDetector也提供基于prompt的檢測(cè)器。通過利用這些基礎(chǔ)模型,本文可以獲取定位信息作為有價(jià)值的語義先驗(yàn),以增強(qiáng)圖像反演。這反過來又有助于整體提高圖像編輯性能。
方法
在本節(jié)中,提供LocInv的描述。本文方法的示意圖如下圖2所示,偽代碼如下算法1所示。
初步
動(dòng)態(tài)Prompt學(xué)習(xí)
基于文本的圖像編輯采用由初始prompt 描述的圖像,并旨在根據(jù)用戶指定的修改后prompt 對(duì)其進(jìn)行修改。初始prompt用于計(jì)算交叉注意力圖。正如在前文中討論的那樣,當(dāng)面對(duì)復(fù)雜情景時(shí),交叉注意力泄漏是現(xiàn)有基于文本的編輯方法面臨的挑戰(zhàn)。DPL引入了三種損失來增強(qiáng)注意力圖與名詞之間的對(duì)齊,這依賴于圖像和prompt之間固有的連接,在現(xiàn)實(shí)世界的情況下并不總是可靠的。本節(jié)介紹本文的方法,稱為LocInv,它利用從現(xiàn)有分割圖(分割先驗(yàn))或檢測(cè)框(檢測(cè)先驗(yàn))派生的定位先驗(yàn)。這些信息可以在最近基礎(chǔ)模型的幫助下輕松獲得,并有潛力顯著增強(qiáng)交叉注意力圖的質(zhì)量。為簡化起見,本文統(tǒng)一將分割圖和檢測(cè)框表示為S。
LocInv: Localization-aware Inversion
為了在每個(gè)時(shí)間步更新token表示,本文提出了幾種損失來優(yōu)化embedding向量Vt:本文設(shè)計(jì)了一個(gè)損失來處理交叉注意力圖與其相應(yīng)位置先驗(yàn)S之間的相似性,另一個(gè)損失則確保高度重疊。
相似性損失。 相似性定義為注意力圖和位置先驗(yàn)之間的余弦距離。
然而,本文的實(shí)驗(yàn)結(jié)果表明,僅使用相似性損失會(huì)導(dǎo)致較低的交并比(IoU)曲線。鑒于注意力圖是連續(xù)函數(shù),本文另外引入了一個(gè)重疊損失來溫和地限制交叉注意力。
重疊損失。 該損失被定義為定位先驗(yàn)中注意力圖所占比例,如下所示:
形容詞結(jié)合
現(xiàn)有的文本引導(dǎo)圖像編輯方法主要集中在將源對(duì)象轉(zhuǎn)換為目標(biāo)對(duì)象。然而,通常用戶希望改變對(duì)象的外觀。在文本引導(dǎo)圖像編輯中,通常會(huì)通過改變由形容詞描述的對(duì)象屬性來實(shí)現(xiàn)這一點(diǎn)。然而,現(xiàn)有的方法在編輯源對(duì)象的屬性時(shí)失敗了(如下圖5所示)。本文將這種情況歸因于形容詞和其對(duì)應(yīng)名詞之間的交叉注意力不一致(如上圖1所示)。
實(shí)驗(yàn)
本文基于開源的Stable Diffusion 進(jìn)行了各種實(shí)驗(yàn)來展示LocInv,這是根據(jù)以前的方法 [37, 39, 52] 進(jìn)行的。所有實(shí)驗(yàn)都在R6000 GPU上完成。
數(shù)據(jù)集。 為了對(duì)超參數(shù)進(jìn)行定量消融研究,并部分用于定性編輯比較,本文從MS-COCO數(shù)據(jù)集 [30] 中選擇了315張圖像作為COCO-edit的子集。本文從各種搜索prompt(包括飛機(jī)、蘋果、香蕉、熊、長椅等概念)中構(gòu)建了這個(gè)子集,并存儲(chǔ)了用于實(shí)驗(yàn)的地面真實(shí)分割/檢測(cè)圖像??傮w上,有7個(gè)帶有單個(gè)對(duì)象(名詞)的搜索prompt,以及6個(gè)帶有多個(gè)對(duì)象的prompt。更詳細(xì)的信息請(qǐng)參見原文附錄資料。
比較方法。 本文組織了兩組方法進(jìn)行定性和定量比較。第一組方法是凍結(jié)Stable Diffusion模型,包括NTI、DPL、pix2pix-zero、PnP、DiffEdit 和 MasaCtrl。第二組方法是對(duì)大型預(yù)訓(xùn)練的T2I模型進(jìn)行微調(diào),作為特定的圖像編輯模型,例如SD-inpaint、InstructPix2Pix和 Imagic,或者將mask視為涂鴉位置進(jìn)行修復(fù),包括SD-inpaint和 BLD。
評(píng)估指標(biāo)。 為了定量評(píng)估方法的性能,本文采用了一些成熟的度量標(biāo)準(zhǔn),包括 LPIPS、SSIM、PSNR、CLIP-Score和 DINO-Sim,來評(píng)估編輯后的完整圖像。此外,為了說明背景保留的質(zhì)量,本文按照 DirectInversion的方法計(jì)算了 LPIPS、SSIM、PSNR 和 MSE 指標(biāo),用于mask外的區(qū)域。
消融實(shí)驗(yàn)
對(duì)于消融研究,本文在COCO-edit數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。為了定量評(píng)估LocInv的定位性能,本文將閾值從0.0變化到1.0,從交叉注意力圖中獲取分割mask。然后,本文使用分割真值計(jì)算交并比(IoU)指標(biāo)進(jìn)行比較。本文的方法可以同時(shí)使用分割圖和檢測(cè)邊界框作為定位先驗(yàn)。在這里,本文考慮了這兩種情況的超參數(shù)。
在下圖3中,本文對(duì)相似性損失和重疊損失進(jìn)行消融研究。從圖 3-(c)(g) 可以看出,僅應(yīng)用其中一種損失并不能確保令人滿意的性能。在經(jīng)驗(yàn)上,本文發(fā)現(xiàn)分割和檢測(cè)先驗(yàn)的最佳超參數(shù)為 對(duì)于形容詞綁定損失,由于缺乏足夠的圖像-文本對(duì)進(jìn)行消融研究,本文經(jīng)驗(yàn)性地將超參數(shù)設(shè)置為 。本文中的所有結(jié)果均使用這些超參數(shù)設(shè)置生成。
圖像編輯評(píng)估
對(duì)于圖像編輯,將LocInv與P2P圖像編輯方法結(jié)合起來。在本文中,主要關(guān)注包括詞語交換和屬性編輯在內(nèi)的定位編輯任務(wù)。
詞語交換。如下圖4所示,本文通過使用分割圖作為定位先驗(yàn),比較了LocInv與各種方法在原始圖像中交換一個(gè)對(duì)象的效果。本文的方法LocInv更成功地將源對(duì)象轉(zhuǎn)換為目標(biāo)對(duì)象,并保持語義相似性。
在下表2中,針對(duì)COCOEdit數(shù)據(jù)集中每組圖像設(shè)計(jì)了一個(gè)編輯任務(wù)(詳細(xì)信息請(qǐng)參見原文補(bǔ)充材料)。在單個(gè)對(duì)象和多個(gè)對(duì)象的編輯任務(wù)中,LocInv在完整圖像評(píng)估方面表現(xiàn)更好,并且僅在背景保留方面(因?yàn)檫@些方法不會(huì)更改背景像素)比涂鴉方法[2, 45]差一些。值得注意的是,LocInv不需要對(duì)基本模型進(jìn)行微調(diào),從而具有更好的時(shí)間復(fù)雜度,并且在T2I模型中沒有遺忘。
在下表1中,詢問了二十位參與者從編輯質(zhì)量和背景保留兩個(gè)方面評(píng)估圖像編輯性能。在兩種情況下,LocInv都優(yōu)于這六種凍結(jié)SD模型的方法。用戶研究的詳細(xì)信息請(qǐng)參見補(bǔ)充材料。
屬性編輯。 此外,LocInv在另一個(gè)編輯方面表現(xiàn)突出,即其他方法往往忽視的屬性編輯。這種能力在下圖5中有所體現(xiàn)。
通過強(qiáng)制形容詞詞語與其對(duì)應(yīng)的名詞對(duì)象進(jìn)行綁定,本文實(shí)現(xiàn)了準(zhǔn)確修改它們的屬性(顏色、材質(zhì)等)的能力。
與以前的方法(包括NTI、DDIM和DPL)相比
我們的方法顯著改進(jìn)了交叉注意力圖
結(jié)論
本文提出了基于定位感知的反演(LocInv)來解決使用文本到圖像擴(kuò)散模型進(jìn)行圖像編輯時(shí)的交叉注意力泄漏問題。本文建議使用分割或檢測(cè)作為先驗(yàn)來更新prompt中每個(gè)名詞詞語的動(dòng)態(tài)token。由此產(chǎn)生的交叉注意力圖對(duì)交叉注意力泄漏的影響較小。因此,這些大大改進(jìn)的交叉注意力圖導(dǎo)致了文本引導(dǎo)圖像編輯的顯著改進(jìn)結(jié)果。實(shí)驗(yàn)結(jié)果證實(shí),LocInv在復(fù)雜的多對(duì)象場景中取得了優(yōu)異的結(jié)果。最后,展示了本文的方法還可以將形容詞詞語綁定到它們對(duì)應(yīng)的名詞,從而為形容詞生成準(zhǔn)確的交叉注意力圖,并允許屬性編輯,這在以前的文本引導(dǎo)圖像編輯中尚未得到很好的探索。
本文轉(zhuǎn)自 Chuanming Tang等 ,作者:AI生成未來
