自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

性能狂飆89%! 新加坡國立開源Conceptrol:讓個(gè)性化圖像生成更懂你的文字提示

發(fā)布于 2025-3-25 10:29
瀏覽
0收藏

性能狂飆89%! 新加坡國立開源Conceptrol:讓個(gè)性化圖像生成更懂你的文字提示-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2503.06568
代碼鏈接:https://github.com/QY-H00/Conceptrol

亮點(diǎn)直擊

  • 發(fā)現(xiàn)了zero-shot adapters中的一個(gè)關(guān)鍵設(shè)計(jì)缺陷,表明忽略文本概念會(huì)導(dǎo)致參考圖像中的注意力分配錯(cuò)誤。
  • 發(fā)現(xiàn)基礎(chǔ)模型中的特定模塊可以提供文本概念掩碼,精確指示相應(yīng)文本概念的空間位置。
  • 提出了一種簡單但有效的方法,稱為Conceptrol。通過提取文本概念掩碼,并利用它來增加視覺規(guī)范在個(gè)性化目標(biāo)正確區(qū)域的注意力分?jǐn)?shù),同時(shí)抑制對無關(guān)區(qū)域的注意力。
  • 大量實(shí)驗(yàn)表明,Conceptrol顯著改善了zero-shot個(gè)性化圖像生成的效果,甚至超越了微調(diào)方法,盡管其方法簡單且計(jì)算開銷可忽略不計(jì)。

效果先睹為快


性能狂飆89%! 新加坡國立開源Conceptrol:讓個(gè)性化圖像生成更懂你的文字提示-AI.x社區(qū)

性能狂飆89%! 新加坡國立開源Conceptrol:讓個(gè)性化圖像生成更懂你的文字提示-AI.x社區(qū)

性能狂飆89%! 新加坡國立開源Conceptrol:讓個(gè)性化圖像生成更懂你的文字提示-AI.x社區(qū)

總結(jié)速覽

解決的問題

  • 個(gè)性化圖像生成中的平衡問題:現(xiàn)有的zero-shot adapters方法(如IP-Adapter和OminiControl)在生成個(gè)性化圖像時(shí),難以平衡保留參考圖像內(nèi)容和遵循文本提示的要求。生成的圖像往往只是復(fù)制個(gè)性化內(nèi)容,而不是根據(jù)文本提示進(jìn)行調(diào)整。
  • 設(shè)計(jì)缺陷:現(xiàn)有的adapters在將個(gè)性化圖像與文本描述結(jié)合時(shí)存在設(shè)計(jì)缺陷,導(dǎo)致生成的圖像無法充分利用基礎(chǔ)文本到圖像擴(kuò)散模型的概念理解能力。

提出的方案

  • Conceptrol框架:提出了一個(gè)簡單但有效的框架Conceptrol,用于增強(qiáng)zero-shot adapters的性能,而無需增加計(jì)算開銷。
  • 注意力機(jī)制優(yōu)化:通過分析注意力機(jī)制,Conceptrol利用基礎(chǔ)擴(kuò)散模型中的特定注意力塊來生成文本概念掩碼,并將其應(yīng)用于參考圖像的注意力圖中,從而更好地結(jié)合個(gè)性化內(nèi)容和文本提示。

應(yīng)用的技術(shù)

  • 注意力掩碼:利用基礎(chǔ)擴(kuò)散模型中的特定注意力塊生成文本概念掩碼,并將其應(yīng)用于參考圖像的注意力圖中,以約束視覺規(guī)范的注意力。
  • 訓(xùn)練免費(fèi)方法:Conceptrol是一個(gè)即插即用的方法,無需重新訓(xùn)練,直接在推理過程中應(yīng)用,顯著提升了zero-shot adapters的性能。

達(dá)到的效果

  • 性能提升:Conceptrol在個(gè)性化圖像生成基準(zhǔn)測試中,相比原始的IP-Adapter,提升了高達(dá)89%的性能,甚至超過了微調(diào)方法如Dreambooth LoRA。
  • 概念保留與提示遵循的平衡:Conceptrol更好地平衡了概念保留和提示遵循,生成的圖像既保留了參考圖像的內(nèi)容,又更好地遵循了文本提示的指令。
  • 廣泛適用性:Conceptrol不僅適用于基于UNet的擴(kuò)散模型(如Stable Diffusion、SDXL),也適用于基于DiT的模型(如FLUX),展示了其廣泛的適用性和有效性。

方法

為什么將參考圖像視為全局條件是不理想的?

對于IP-Adapter和OminiControl,參考圖像被用作全局條件,基于以下兩個(gè)觀察:

性能狂飆89%! 新加坡國立開源Conceptrol:讓個(gè)性化圖像生成更懂你的文字提示-AI.x社區(qū)

將圖像和文本條件對稱處理會(huì)導(dǎo)致zero-shot個(gè)性化面臨兩個(gè)主要挑戰(zhàn):

平衡提示遵循與概念保留:文本條件作為描述期望圖像的全局提示,而將圖像條件類似處理可能會(huì)導(dǎo)致沖突。如下圖3(第1行)所示,IP-Adapter中的低圖像條件強(qiáng)度(IP Scale)無法有效保留概念,而增加強(qiáng)度則會(huì)導(dǎo)致偏離文本提示并產(chǎn)生復(fù)制粘貼效果。這表明如果條件被對稱處理,平衡提示遵循與概念保留將變得困難。

性能狂飆89%! 新加坡國立開源Conceptrol:讓個(gè)性化圖像生成更懂你的文字提示-AI.x社區(qū)

獲取多樣化數(shù)據(jù)集的挑戰(zhàn):即使使用相同主題但不同文本提示的數(shù)據(jù)對進(jìn)行訓(xùn)練(如OminiControl),文本和圖像條件之間的耦合仍然存在顯著挑戰(zhàn)。例如,當(dāng)使用特定書籍的參考圖像生成“一座雕像正在讀書”時(shí),系統(tǒng)可能會(huì)錯(cuò)誤地優(yōu)先考慮“雕像”而忽略“書籍”,如上圖3(第2行)所示。


不應(yīng)將圖像和文本條件同等對待,而是將圖像條件作為特定文本概念的視覺規(guī)范。例如,在提示“一張雕像正在讀書的照片”中,圖像條件應(yīng)僅應(yīng)用于“書籍”的生成,而不是整個(gè)場景。否則,如圖3(第1行)所示,參考圖像可能會(huì)影響“雕像”的生成并導(dǎo)致偽影。

噪聲隱空間表示對文本和圖像條件的注意力指示了什么?

由于注意力塊是IP-Adapter 和 OminiControl 引入額外圖像條件的主要機(jī)制,本文研究了這些條件如何與噪聲隱空間表示交互并影響生成過程。先前的工作在完整生成后分析了注意力圖,但它們僅關(guān)注文本到圖像的生成。本文的分析在兩個(gè)方面有所不同:


  1. 分析注意力圖,以確定是否可以在生成過程中無需先驗(yàn)知識(shí)識(shí)別感興趣區(qū)域。
  2. 研究了額外的參考圖像如何影響生成過程。


為了探索這些問題,本文首先通過將條件縮放設(shè)置為零來分析沒有參考圖像的生成過程,同時(shí)計(jì)算參考圖像的注意力圖。再使用LangSAM(一種基于SAM 的開源詞匯分割工具)來獲取定制目標(biāo)的偽掩碼。下圖5中,(b) 顯示了LangSAM生成的掩碼,而 (c) 顯示了其中一個(gè)注意力圖。通過計(jì)算注意力圖與目標(biāo)掩碼之間的AUC,我們定量評(píng)估注意力圖是否正確突出了目標(biāo)的感興趣區(qū)域。

性能狂飆89%! 新加坡國立開源Conceptrol:讓個(gè)性化圖像生成更懂你的文字提示-AI.x社區(qū)

圖像條件的注意力分布未對齊:下圖4展示了一個(gè)這種差異的例子。在這個(gè)例子中,與文本“avocado”對應(yīng)的注意力圖與生成結(jié)果中鱷梨(牛油果)的真實(shí)掩碼非常匹配,而圖像條件的注意力圖則集中在無關(guān)物體(如狗)上。定量來看,圖像條件注意力圖在所有塊中的最高AUC僅為0.38,而文本(如“avocado”)的AUC高達(dá)0.99。

性能狂飆89%! 新加坡國立開源Conceptrol:讓個(gè)性化圖像生成更懂你的文字提示-AI.x社區(qū)

視覺規(guī)范可以在高注意力分?jǐn)?shù)區(qū)域內(nèi)傳遞:IP-Adapter 可以通過手動(dòng)應(yīng)用注意力掩碼來傳遞視覺規(guī)范。進(jìn)一步在FLUX中使用OminiControl驗(yàn)證了這一點(diǎn)。具體來說,使用從僅文本條件生成的結(jié)果中分割出的感興趣區(qū)域掩碼,然后將其用于掩碼圖像條件生成以獲得另一個(gè)結(jié)果。接著,從新結(jié)果中再次分割,并與原始掩碼進(jìn)行比較,發(fā)現(xiàn)基于UNet和DiT的模型的AUC均可高達(dá)0.99。這表明adapters可以在高注意力分?jǐn)?shù)區(qū)域內(nèi)傳遞參考圖像的外觀。


文本條件的概念特定注意力塊指示生成過程中的感興趣區(qū)域:與先前對注意力圖的事后分析不同,本文研究了它們在生成過程中的特性。對于通過交叉注意力或多模態(tài)注意力引入文本條件的架構(gòu),我們觀察到特定塊能夠清晰地突出感興趣區(qū)域,如圖5所示。為了量化這一點(diǎn),比較了每個(gè)塊和時(shí)間步的注意力圖與通過LangSAM獲得的標(biāo)注感興趣區(qū)域之間的AUC。如下圖6所示,來自概念特定塊的注意力圖強(qiáng)烈指示了感興趣區(qū)域。這些概念特定塊包括:Stable Diffusion 中的 UP BLOCK 1.0.0、SDXL 中的 UP BLOCK 0.1.3 以及 FLUX 中的 BLOCK 18。將這些特定塊的圖稱為文本概念掩碼,因?yàn)樗鼈冎苯訉?yīng)于像素空間中的文本概念。本文從分析中獲得的第三個(gè)見解是:這些特定塊可以始終提供在定制目標(biāo)區(qū)域上具有高分的注意力圖。

性能狂飆89%! 新加坡國立開源Conceptrol:讓個(gè)性化圖像生成更懂你的文字提示-AI.x社區(qū)

Conceptrol:使用文本概念掩碼控制視覺規(guī)范

本文提出了一種簡單但有效的方法,稱為Conceptrol,用于持續(xù)提升zero-shot adapters的個(gè)性化能力?;谥暗囊娊?,Conceptrol 使用文本概念掩碼來調(diào)整圖像條件的注意力圖,從而使個(gè)性化目標(biāo)的區(qū)域獲得最高分?jǐn)?shù),使adapters能夠準(zhǔn)確傳遞視覺規(guī)范。整體流程如下圖2所示。

性能狂飆89%! 新加坡國立開源Conceptrol:讓個(gè)性化圖像生成更懂你的文字提示-AI.x社區(qū)

Conceptrol 在 Direct Adding / IP-Adapter 中的應(yīng)用

性能狂飆89%! 新加坡國立開源Conceptrol:讓個(gè)性化圖像生成更懂你的文字提示-AI.x社區(qū)

性能狂飆89%! 新加坡國立開源Conceptrol:讓個(gè)性化圖像生成更懂你的文字提示-AI.x社區(qū)

在推理過程中,可以通過使用圖像條件對注意力進(jìn)行掩碼來修改IP-Adapter的交叉注意力。

性能狂飆89%! 新加坡國立開源Conceptrol:讓個(gè)性化圖像生成更懂你的文字提示-AI.x社區(qū)

性能狂飆89%! 新加坡國立開源Conceptrol:讓個(gè)性化圖像生成更懂你的文字提示-AI.x社區(qū)

MM-Attention / OminiControl 上的 Conceptrol

性能狂飆89%! 新加坡國立開源Conceptrol:讓個(gè)性化圖像生成更懂你的文字提示-AI.x社區(qū)

Conceptrol 預(yù)熱

性能狂飆89%! 新加坡國立開源Conceptrol:讓個(gè)性化圖像生成更懂你的文字提示-AI.x社區(qū)

性能狂飆89%! 新加坡國立開源Conceptrol:讓個(gè)性化圖像生成更懂你的文字提示-AI.x社區(qū)

實(shí)驗(yàn)

評(píng)估設(shè)置

對比方法:為了評(píng)估本文方法的有效性,系統(tǒng)地將 Conceptrol 與其他最先進(jìn)的方法進(jìn)行比較,例如 Textual Inversion、DreamBooth、BLIP Diffusion 和 Emu2。為了展示 Conceptrol 在不同基礎(chǔ)模型上的適用性,將其與 IP-Adapter 結(jié)合應(yīng)用于基于 UNet 的模型(包括 Stable Diffusion 1.5 和 SDXL),以及與基于 DiT 的模型 FLUX 上的 OminiControl 結(jié)合。


評(píng)估協(xié)議:本文遵循 DreamBench++ 中概述的評(píng)估協(xié)議,這是一個(gè)用于個(gè)性化圖像生成的綜合數(shù)據(jù)集。該基準(zhǔn)使用視覺語言模型 GPT-4 系統(tǒng)地評(píng)估概念保留和提示跟隨的定制性能,展示了與其他基準(zhǔn)相比更符合人類偏好的對齊效果。在正式評(píng)估中,個(gè)性化生成被表述為納什討價(jià)還價(jià)問題,目標(biāo)是最大化納什效用,即概念保留和提示遵循的乘積。

人類研究:使用 Amazon Mechanical Turk (MTurk) 進(jìn)行了人類研究,以驗(yàn)證本文的方法是否符合人類偏好。具體來說,參與者被展示成對的圖像,并被要求選擇更好地保留原始概念并遵循提示的圖像。

性能狂飆89%! 新加坡國立開源Conceptrol:讓個(gè)性化圖像生成更懂你的文字提示-AI.x社區(qū)

主要結(jié)果

在下表 1 中展示了不同方法、基礎(chǔ)模型和各種個(gè)性化目標(biāo)的主要結(jié)果。

性能狂飆89%! 新加坡國立開源Conceptrol:讓個(gè)性化圖像生成更懂你的文字提示-AI.x社區(qū)

充分發(fā)揮現(xiàn)有adapters的潛力:通過簡單的控制,可以大幅提升零樣本adapters在 Stable Diffusion 1.5、SDXL 和 FLUX 上的性能。值得注意的是,使用 Conceptrol 后,zero-shot adapters的性能甚至可以超越微調(diào)方法,例如 Dreambooth LoRA(在 Stable Diffusion 1.5 上為 0.397 > 0.359,在 SDXL 上為 0.524 > 0.517),這表明這些zero-shot adapters的潛力可以通過可忽略的計(jì)算開銷進(jìn)一步發(fā)揮,如下圖 7 所示。

性能狂飆89%! 新加坡國立開源Conceptrol:讓個(gè)性化圖像生成更懂你的文字提示-AI.x社區(qū)

對人類偏好的帕累托改進(jìn):在下圖 12 中報(bào)告了人類研究結(jié)果。與使用 GPT-4 評(píng)估的結(jié)果相比,本文的方法在概念保留方面與原始 IP-Adapter 在 SD 和 SDXL 上表現(xiàn)相似,同時(shí)在提示遵循方面表現(xiàn)出顯著更好的效果。這一觀察結(jié)果與 DreambenchPlus 一致,后者報(bào)告稱,在 GPT-4 評(píng)估中,人類對齊在提示遵循方面高于概念保留。此外,在 FLUX 上使用 OminiControl 時(shí),Conceptrol 能夠在保持提示遵循的同時(shí)提高概念保留。總體而言,人類研究結(jié)果表明,本文的方法可以被視為一種帕累托改進(jìn),即在提升提示遵循或概念保留的同時(shí)不犧牲另一方。

性能狂飆89%! 新加坡國立開源Conceptrol:讓個(gè)性化圖像生成更懂你的文字提示-AI.x社區(qū)

消融研究

本文系統(tǒng)地評(píng)估了方法中每個(gè)組件的影響,包括掩碼機(jī)制、條件比例和預(yù)熱比例對個(gè)性化得分的影響。


掩碼機(jī)制:為了評(píng)估文本概念掩碼的有效性,將其與三種替代設(shè)置進(jìn)行比較:

  1. 非特定掩碼:注意力掩碼直接從每個(gè)塊中的文本概念單獨(dú)轉(zhuǎn)移,而不使用特定概念的注意力塊;
  2. 來自其他塊的掩碼,例如 DOWN.0.0.0;
  3. Oracle 掩碼:首先生成完全基于文本提示的圖像,然后使用 SAM 對主體進(jìn)行分割以提取掩碼。


如下表 2 所示,文本概念掩碼優(yōu)于非特定掩碼和從無信息注意力塊(如 DOWN.0.0.0)提取的掩碼。值得注意的是,在沒有額外計(jì)算開銷或依賴輔助模型的情況下,文本概念掩碼與 Oracle 掩碼具有競爭力,而后者需要雙倍的計(jì)算開銷和一個(gè)外部的大規(guī)模分割模型。

性能狂飆89%! 新加坡國立開源Conceptrol:讓個(gè)性化圖像生成更懂你的文字提示-AI.x社區(qū)

條件比例:條件比例定義了zero-shot adapters中概念保留和提示遵循之間的默認(rèn)權(quán)衡。我們對原始 IP-Adapter 及其在 Conceptrol 下的變體進(jìn)行了消融研究,如圖 9 (a) 所示。對于這兩種方法,增加條件比例會(huì)增強(qiáng)概念保留,但會(huì)降低提示遵循。值得注意的是,Conceptrol 實(shí)現(xiàn)了更好的權(quán)衡,在不同的條件比例值下保持了更高的乘積得分。


條件預(yù)熱比例:該比例是另一個(gè)重要的超參數(shù),結(jié)果如下圖 9(b) 所示。隨著預(yù)熱比例的增加,提示遵循得分提高,而概念保留得分下降。然而,Conceptrol 在每種設(shè)置下都持續(xù)提高了乘積得分。我們將 Conceptrol 與 IP-Adapter 的預(yù)熱比例設(shè)置為 0.2,以增強(qiáng)提示遵循。對于 OmniControl,將預(yù)熱比例設(shè)置為 0.0。這主要是因?yàn)?FLUX 的文本概念掩碼比 Stable Diffusion 和 SDXL 收斂得更快。

性能狂飆89%! 新加坡國立開源Conceptrol:讓個(gè)性化圖像生成更懂你的文字提示-AI.x社區(qū)

結(jié)論

Conceptrol——一種簡單而有效的即插即用方法,顯著增強(qiáng)了zero-shot adapters在個(gè)性化圖像生成中的性能。本文的方法基于注意力分析中的三個(gè)關(guān)鍵觀察:

  1. 視覺規(guī)范的注意力通常與定制目標(biāo)不一致;
  2. 視覺規(guī)范可以在高注意力區(qū)域內(nèi)轉(zhuǎn)移;
  3. 可以從目標(biāo)獲得高注意力的特定注意力塊中提取文本概念掩碼。通過使用文本概念掩碼轉(zhuǎn)移視覺規(guī)范,Conceptrol 在不增加計(jì)算、數(shù)據(jù)或模型的情況下實(shí)現(xiàn)了顯著的性能提升。研究結(jié)果強(qiáng)調(diào)了將文本概念集成到個(gè)性化圖像生成管道中的重要性,即使在使用更多數(shù)據(jù)和先進(jìn)架構(gòu)的情況下也是如此。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/xjAUHWJSkyplAx-rIPqqTA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦