外科手術(shù)式編輯圖片!賓大突破性算法CoLan :15萬場景概念庫讓AI秒懂你的P圖意圖!
文章鏈接:https://arxiv.org/pdf/2504.02828
項(xiàng)目鏈接:https://peterljq.github.io/project/colan
Git鏈接:https://github.com/peterljq/Concept-Lancet
亮點(diǎn)直擊
- 提出CoLan框架一個(gè)零樣本即插即用的框架,用于在基于擴(kuò)散的圖像編輯中解釋和操作稀疏概念表示。該框架可以精確控制概念移植的幅度,實(shí)現(xiàn)高質(zhì)量的圖像編輯。
- 構(gòu)建CoLan-150K概念詞典收集了包含多樣化視覺概念的CoLan-150K數(shù)據(jù)集,并計(jì)算對(duì)應(yīng)的概念向量詞典(文本嵌入或評(píng)分空間),為后續(xù)概念分解與編輯提供基礎(chǔ)。
- 基于概念分解的編輯方法在推理階段,將源圖像的隱空間向量分解為視覺概念的線性組合,并利用視覺語言模型(VLM)優(yōu)化過完備詞典的效率問題。通過替換、添加或刪除概念向量,實(shí)現(xiàn)靈活的圖像編輯。
- SOTA性能與即插即用優(yōu)勢CoLan在多種擴(kuò)散基圖像編輯任務(wù)上實(shí)現(xiàn)了最先進(jìn)的性能!
總結(jié)速覽
解決的問題
現(xiàn)有的圖像編輯方法在設(shè)計(jì)編輯方向時(shí)面臨挑戰(zhàn):高估編輯強(qiáng)度會(huì)損害視覺一致性,而低估則無法完成編輯任務(wù)。每個(gè)源圖像可能需要不同的編輯強(qiáng)度,而通過反復(fù)試驗(yàn)尋找合適的強(qiáng)度代價(jià)高昂。
提出的方案
本文提出了Concept Lancet (CoLan),一個(gè)用于擴(kuò)散基礎(chǔ)圖像編輯的零樣本即插即用框架。CoLan通過在推理時(shí)將源輸入在隱空間中分解為視覺概念的稀疏線性組合,以指導(dǎo)編輯任務(wù)(替換/添加/刪除),并執(zhí)行定制的概念移植過程來施加相應(yīng)的編輯方向。
應(yīng)用的技術(shù)
- 概念表示數(shù)據(jù)集:收集了一個(gè)名為CoLan-150K的概念表示數(shù)據(jù)集,包含多種視覺概念的描述,并計(jì)算出一個(gè)概念向量詞典到隱空間。
- 隱空間分解:在推理時(shí),將源隱空間向量分解為視覺概念的線性組合,以指導(dǎo)編輯。
- 視覺語言模型(VLM):使用VLM將圖像提示對(duì)解析為代表性視覺概念列表,以提高詞典優(yōu)化效率。
- 骨干網(wǎng)絡(luò)合成:使用骨干網(wǎng)絡(luò)合成編輯后的圖像,靈活地處理替換、添加或刪除概念的任務(wù)。
達(dá)到的效果
配備CoLan的圖像編輯方法在多種基于擴(kuò)散的圖像編輯基準(zhǔn)上表現(xiàn)優(yōu)越,達(dá)到了最先進(jìn)的編輯效果和一致性保持。該方法的即插即用設(shè)計(jì)提供了骨干網(wǎng)絡(luò)和隱空間選擇上的靈活性。
Concept Lancet
在上述背景下,提出一種基于擴(kuò)散的圖像編輯中準(zhǔn)確表示操控的方法。高層次的想法是,我們將不再隨意設(shè)定編輯的量,而是估計(jì)源圖像中存在的概念是什么以及有多少,以指導(dǎo)編輯。這是通過在隱空間中收集概念向量字典,并將源隱空間向量分解為字典原子的線性組合來實(shí)現(xiàn),以允許概念移植程序,我們將在下文中分別討論這些程序。
概念字典合成
這里的主要目標(biāo)是收集一組多樣化的概念(以及隱空間中的相應(yīng)概念向量),這些概念既在視覺上有意義又與圖像編輯相關(guān),使得源隱空間向量的分解能夠捕獲重要的視覺元素并允許潛在的修改以進(jìn)行有效編輯。這自然歸結(jié)為兩個(gè)步驟:為刺激合成策劃視覺概念和從刺激中提取概念向量。我們在下面描述我們的方法,并與文獻(xiàn)中的替代方案進(jìn)行比較。
策劃視覺概念
構(gòu)建特定領(lǐng)域的概念被廣泛采用來評(píng)估和控制生成基礎(chǔ)模型 [23, 24, 26, 29, 63, 64]。為了對(duì)給定概念的豐富語義進(jìn)行建模,一種新興的工作收集文本概念刺激(即一組示例、描述和場景)用于下游LLM或擴(kuò)散編輯任務(wù) [33, 40, 57, 72]。在將這些概念應(yīng)用于圖像編輯時(shí)有三個(gè)問題:
- 許多用于編輯LLM的概念 [33, 72],例如“誠實(shí)”或“困難”,并不適合擴(kuò)散模型中的圖像編輯?,F(xiàn)有的概念刺激通常是專門為LLM激活讀取而設(shè)計(jì)的格式(例如,以第二人稱代詞開頭)。
- 這些概念主要集中在單詞描述符(例如“愛”、“友誼”),而不是有助于建模視覺空間的多詞短語(例如“戴著太陽鏡”或“由木頭制成”)。
- 現(xiàn)有的用于圖像編輯的概念集合開放源代碼的概念向量數(shù)量有限(例如,[40]中的少于20個(gè),[32, 41]中的少于50個(gè))。
為了解決這些問題,我們策劃了一套與圖像編輯任務(wù)相關(guān)的全面視覺概念。具體來說,對(duì)于每個(gè)編輯任務(wù),包括源圖像、源提示和編輯提示,我們使用VLM [37]解析圖像提示元組并生成相關(guān)視覺概念列表。此步驟確保我們的概念既有視覺基礎(chǔ)又與編輯相關(guān)。
然后,我們指導(dǎo)一個(gè)LLM [38]進(jìn)行上下文內(nèi)刺激合成演示,以生成每個(gè)概念的多樣刺激,以捕獲概念出現(xiàn)的各種上下文。說明在附錄中展示。經(jīng)過所有編輯任務(wù)的概念收集后,我們獲得了5,078個(gè)概念和總計(jì)152,971個(gè)概念刺激,我們稱之為CoLan-150K。下圖4展示了我們數(shù)據(jù)集中概念刺激的樣本。與現(xiàn)有的基于擴(kuò)散的編輯概念表示集合相比,CoLan-150K代表了顯著的擴(kuò)展,為每個(gè)概念提供了更豐富和多樣化的表示。通過對(duì)概念的各種觀察進(jìn)行采樣,大量的刺激幫助準(zhǔn)確估計(jì)出在上下文變化中具有魯棒性的表示。
通過稀疏分解進(jìn)行概念移植
現(xiàn)在已經(jīng)獲得了一個(gè)概念字典,接著描述如何沿字典分解圖像的隱空間code并移植概念。
概念分析 給定一個(gè)源隱空間向量v(來自文本編碼器或評(píng)分函數(shù)),通過稀疏編碼沿著 中的方向?qū)ζ溥M(jìn)行分解。也就是說,我們解決以下優(yōu)化問題:
實(shí)驗(yàn)結(jié)果
定量評(píng)估
使用PIE-Bench對(duì)CoLan與當(dāng)前方法進(jìn)行標(biāo)準(zhǔn)化定量評(píng)估。其編輯任務(wù)基于廣泛的圖像來源集合(例如,TEdBench,TI2I基準(zhǔn)),包括多種場景類型和編輯類別。
基線
比較兩類基于概念轉(zhuǎn)移方法的編輯骨干: (1) 注意力圖的機(jī)械交換,包括P2P和MasaCtrl,以及(2)表示操作,使我們能夠在InfEdit的擴(kuò)散評(píng)分空間(S)和InfEdit及P2P-Zero的文本嵌入空間(E)中插入CoLan。我們涵蓋多種逆轉(zhuǎn)方法,如DDIM,直接逆轉(zhuǎn)(DI),和虛擬逆轉(zhuǎn)(VI)。進(jìn)一步的實(shí)施細(xì)節(jié)可以在附錄中找到。
指標(biāo)
兩個(gè)主要標(biāo)準(zhǔn)是一致性保留和編輯效果。一致性保留是一組指標(biāo),旨在評(píng)估在圖像編輯過程中保留的語義信息量。我們報(bào)告結(jié)構(gòu)距離(StruDist),PSNR,LPIPS,和SSIM。另一方面,編輯效果衡量編輯部分的正確性,它通過兩個(gè)指標(biāo)進(jìn)行評(píng)估:目標(biāo)圖像指標(biāo)計(jì)算編輯文本和編輯圖像之間的CLIP相似度,而目標(biāo)概念指標(biāo)計(jì)算編輯文本和目標(biāo)圖像的編輯遮罩區(qū)域之間的CLIP相似度。
結(jié)果
下表1報(bào)告了我們的結(jié)果。所有配備CoLan的骨干都提高了編輯效果,這表明CoLan準(zhǔn)確地編輯圖像以達(dá)到所需的目標(biāo)概念。此外,我們觀察到配備CoLan的骨干在一致性保留方面表現(xiàn)更好。例如,在P2P-Zero骨干上,CoLan能夠?qū)崿F(xiàn)近50%更低的StruDist和LPIPS,以及約10%更高的PSNR和SSIM。雖然DI與P2P實(shí)現(xiàn)了最佳的StruDist,CoLan在StruDist上排名非常接近第二,并在所有其他一致性指標(biāo)上總體上實(shí)現(xiàn)了更好的性能。我們認(rèn)為StruDist計(jì)算兩個(gè)圖像的DINO-V2特征圖之間的平均差異。因此,這個(gè)單一指標(biāo)在很大程度上依賴于特定的變壓器,全面檢查四個(gè)指標(biāo)是更公平的一致性評(píng)估方式。值得注意的是,InfEdit在評(píng)分空間中配備CoLan在多個(gè)指標(biāo)上表現(xiàn)最為突出。
此外,下表2顯示了使用InfEdit和P2P-Zero骨干的CLIP空間進(jìn)行CoLan稀疏分解的平均時(shí)間。觀察到,由于VLM幫助使字典簡潔,分解僅占總編輯時(shí)間的一小部分。這表明CoLan在相對(duì)于擴(kuò)散模型推理的總計(jì)算成本方面是高效且廉價(jià)的。此外,下表3比較了不同字典大小下CoLan的編輯性能。如預(yù)期,觀察到較大的CoLan字典在捕捉源圖像中現(xiàn)有概念的存在方面表現(xiàn)更好,從而導(dǎo)致更強(qiáng)的編輯性能??傮w而言,定量實(shí)驗(yàn)表明,CoLan的概念移植過程受益于存在于CLIP空間和擴(kuò)散評(píng)分空間中的適當(dāng)準(zhǔn)確且稀疏的概念表示,以獲得更好的圖像編輯性能。
定性觀察
本節(jié)提供編輯圖像的定性結(jié)果。比較了使用給定骨干編輯的圖像與補(bǔ)充了CoLan的圖像之間的視覺質(zhì)量。
視覺比較
每個(gè)目標(biāo)圖像可以分為兩個(gè)部分:i) 感興趣區(qū)域,對(duì)應(yīng)于源概念,應(yīng)該進(jìn)行編輯以表達(dá)目標(biāo)概念;ii) 背景,其內(nèi)容在編輯過程中應(yīng)保持不變。在這里,定性分析使用CoLan進(jìn)行圖像編輯時(shí)的這兩個(gè)方面。
理想情況下,提供的編輯應(yīng)準(zhǔn)確反映在感興趣區(qū)域。觀察到僅使用骨干進(jìn)行編輯通常會(huì)導(dǎo)致過度或不足的編輯。例如,在從[spaceship]修改為[eagle]的任務(wù)中(如圖7,說明:“穿著裙子站在[spaceship]前面的女人”),僅使用InfEdit骨干得到的編輯圖像中,感興趣區(qū)域僅類似于模糊的鳥,而插入CoLan后明顯可見鷹。此外,在下圖5中,例子說明為“一只[meerkat]幼崽包裹在藍(lán)色毛巾中?!痹谠磮D像中,藍(lán)色毛巾包裹著狐獴。僅使用P2P-Zero骨干,輸出圖像中缺少毛巾,而插入CoLan后的輸出圖像中,藍(lán)色毛巾幾乎與源圖像中的位置相同。
如所見,對(duì)于感興趣區(qū)域和背景,編輯后的圖像質(zhì)量更高,當(dāng)骨干方法與CoLan一起運(yùn)行時(shí)。我們推測這是可能的,因?yàn)镃oLan通過稀疏分解尊重概念向量的幾何形狀。通過識(shí)別正確的系數(shù),我們的概念移植是精確的,并且不會(huì)顯著影響非目標(biāo)語義。
表示分解
方法的關(guān)鍵步驟之一是將隱空間表示(來自編輯骨干)線性分解為字典原子的稀疏組合。我們后續(xù)編輯任務(wù)的成功取決于找到一組合適的概念系數(shù),這些系數(shù)能夠準(zhǔn)確反映源圖像中的語義。這里我們驗(yàn)證CoLan確實(shí)找到了并分析了對(duì)給定圖像可見貢獻(xiàn)的代表性概念。
下圖6和圖8展示了CoLan在CLIP空間和分?jǐn)?shù)空間中解決的概念系數(shù)的幅度直方圖。在分?jǐn)?shù)空間中的分解(圖8),以左側(cè)說明為“站在樹枝上的彩色鳥”為例。CoLan找到了圖像中的前三個(gè)概念,包括“鳥”、“喙”和“詳細(xì)羽毛”,這些都是與提供的圖像中的鳥相關(guān)的概念。類似地,取圖6中的第二個(gè)圖像說明為“坐在柵欄上的橙色貓”。直方圖中的頂級(jí)概念是關(guān)鍵語義,包括“貓”、“柵欄”和“橙色”。總體而言,在這兩個(gè)空間中,CoLan能夠找到描述性概念并解決系數(shù)以準(zhǔn)確反映語義的組成。
CoLan-150K中的表示分析
本節(jié)研究從CoLan-150K數(shù)據(jù)集中不同概念刺激獲得的概念向量。我們在下文中評(píng)估概念向量的基礎(chǔ)和編輯圖像中概念的變異性。
概念基礎(chǔ)
當(dāng)提取的概念向量在編輯骨干中有效地施加對(duì)應(yīng)的視覺語義時(shí),該向量就是有基礎(chǔ)的。例如,如果我們使用表示讀取[33, 40, 57, 72]將刺激轉(zhuǎn)換為[green]概念向量,那么在圖像編輯骨干中添加此向量時(shí),希望看到顏色“綠色”。
通過以下方式驗(yàn)證我們的概念向量是有基礎(chǔ)的。對(duì)于給定的概念[x],從CoLan-150K中提取其概念向量。然后通過在每個(gè)源圖像的骨干中添加概念向量生成編輯后的圖像。最后,評(píng)估CLIP(源圖像, “x”)和CLIP(編輯圖像, “x”)之間的差異。如果給定的概念向量確實(shí)是有基礎(chǔ)的,希望看到該指標(biāo)的增加。在表4中,我們對(duì)三個(gè)概念方向[watercolor]、[dog]、[wearing hat]進(jìn)行采樣,并將P2P-Zero與CoLan一起應(yīng)用于PIE-Bench中的每個(gè)源圖像。
我們進(jìn)一步根據(jù)四種圖像類型:人工、自然、室內(nèi)和室外劃分結(jié)果。在所有圖像類型和我們給定的概念中,我們觀察到CLIP相似性顯著增加,這意味著編輯后的圖像確實(shí)朝向所需的概念方向,并且概念向量是有基礎(chǔ)的。更多概念和可視化的結(jié)果可以在附錄中找到。
比較編輯強(qiáng)度
如我們在上文中所述,適當(dāng)?shù)膱D像編輯需要根據(jù)給定源圖像中概念的存在來準(zhǔn)確估計(jì)編輯強(qiáng)度。沿著所需編輯方向[7, 10, 41, 47]可視化源圖像的漸進(jìn)變化,為估計(jì)編輯強(qiáng)度提供了見解。在這里,比較了來自CoLan-150K數(shù)據(jù)集的概念向量與系數(shù)網(wǎng)格的編輯效果。下圖9和圖10分別在兩個(gè)場景中進(jìn)行實(shí)驗(yàn):概念移除和概念添加。
結(jié)論
本文提出了Concept Lancet (CoLan),一個(gè)用于擴(kuò)散式圖像編輯中原則性表示操作的零樣本即插即用框架。通過利用一個(gè)大規(guī)模的概念表示精心策劃的數(shù)據(jù)集 (CoLan-150K),為編輯任務(wù)提取了一個(gè)上下文詞典,并在隱空間中執(zhí)行稀疏分解以準(zhǔn)確估計(jì)概念移植的幅度。
與CoLan結(jié)合的圖像編輯骨架在編輯任務(wù)中實(shí)現(xiàn)了最先進(jìn)的性能,同時(shí)更好地保持了視覺一致性。通過多個(gè)視角的廣泛定量和定性評(píng)估,展示了CoLan在解釋和改善圖像編輯過程中的強(qiáng)大能力。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
