FLUX秒變高玩!DreamRenderer無(wú)需訓(xùn)練一鍵解決AI繪圖『多物亂竄』難題(浙大&哈佛)
文章鏈接:https://arxiv.org/pdf/2503.12885
項(xiàng)目鏈接:https://limuloo.github.io/DreamRenderer
亮點(diǎn)直擊
- DreamRenderer,一種無(wú)需訓(xùn)練的方法,使用戶能夠在深度條件或邊緣條件生成中控制每個(gè)區(qū)域和實(shí)例的生成內(nèi)容。
- 引入了一種新穎的Hard Text Attribute Binding(硬文本屬性綁定)技術(shù),確保文本嵌入在聯(lián)合注意力過(guò)程中綁定正確的視覺(jué)屬性。
- 針對(duì)多實(shí)例生成,首次深入分析了 FLUX 模型中每一層的隱空間功能,明確了哪些層處理全局操作,哪些層對(duì)渲染單個(gè)實(shí)例至關(guān)重要,為后續(xù)研究提供了新的見(jiàn)解。
總結(jié)速覽
解決的問(wèn)題
- 多實(shí)例內(nèi)容控制不準(zhǔn)確:現(xiàn)有圖像生成模型(如FLUX和3DIS)在控制多個(gè)實(shí)例(或區(qū)域)的內(nèi)容時(shí)存在困難,容易出現(xiàn)屬性泄漏問(wèn)題,導(dǎo)致用戶無(wú)法精確控制每個(gè)實(shí)例的視覺(jué)屬性。
- 文本嵌入與視覺(jué)信息綁定不準(zhǔn)確:現(xiàn)有的文本到圖像模型(如T5文本編碼器)僅基于文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,缺乏視覺(jué)信息,導(dǎo)致在多實(shí)例控制場(chǎng)景下,文本嵌入容易與錯(cuò)誤的視覺(jué)屬性綁定。
- 圖像質(zhì)量與控制的平衡:在聯(lián)合注意力機(jī)制中,過(guò)度限制圖像標(biāo)記的注意力范圍會(huì)導(dǎo)致圖像質(zhì)量下降,而過(guò)于寬松的控制則無(wú)法保證每個(gè)實(shí)例的視覺(jué)屬性準(zhǔn)確生成。
提出的方案
- DreamRenderer:基于FLUX模型的無(wú)需訓(xùn)練的插件式工具,允許用戶通過(guò)邊界框或掩碼控制每個(gè)實(shí)例的內(nèi)容,同時(shí)保持整體視覺(jué)和諧。
- Bridge Image Tokens(橋接圖像標(biāo)記):通過(guò)復(fù)制實(shí)例的圖像標(biāo)記作為橋接標(biāo)記,在聯(lián)合注意力機(jī)制中模擬單實(shí)例生成過(guò)程,確保文本嵌入綁定正確的視覺(jué)屬性。
- Hard Image Attribute Binding(硬圖像屬性綁定):僅在關(guān)鍵層應(yīng)用硬綁定,確保每個(gè)實(shí)例的圖像嵌入包含正確的視覺(jué)信息,而在其他層使用軟綁定以保持圖像質(zhì)量。
應(yīng)用的技術(shù)
- Bridge Image Tokens:在聯(lián)合注意力機(jī)制中,使用復(fù)制的圖像標(biāo)記作為橋接標(biāo)記,確保文本嵌入與正確的視覺(jué)屬性綁定。
- Hard Image Attribute Binding:在FLUX模型的關(guān)鍵層(中間層)應(yīng)用硬綁定,確保每個(gè)實(shí)例的視覺(jué)屬性準(zhǔn)確生成,而在輸入和輸出層使用軟綁定以保持整體視覺(jué)和諧。
- 聯(lián)合注意力機(jī)制:通過(guò)調(diào)整圖像標(biāo)記的注意力范圍,確保每個(gè)實(shí)例的文本嵌入和圖像嵌入能夠準(zhǔn)確綁定視覺(jué)信息。
達(dá)到的效果
- 提升圖像生成成功率:在COCO-POS和COCO-MIG基準(zhǔn)測(cè)試中,DreamRenderer將圖像生成成功率(Image Success Ratio)比FLUX模型提高了17.7%,并且在布局到圖像模型(如GLIGEN和3DIS)上的表現(xiàn)提升了高達(dá)26.8%。
- 增強(qiáng)多實(shí)例控制能力:DreamRenderer能夠精確控制每個(gè)實(shí)例的視覺(jué)屬性,避免了屬性泄漏問(wèn)題,顯著提升了用戶對(duì)多實(shí)例內(nèi)容的控制能力。
- 保持圖像質(zhì)量:通過(guò)僅在關(guān)鍵層應(yīng)用硬綁定,DreamRenderer在確保精確控制的同時(shí),保持了生成圖像的整體視覺(jué)質(zhì)量。
方法
概述
下圖 2 展示了 DreamRenderer 的概覽。在聯(lián)合注意力機(jī)制中,DreamRenderer 引入了一種新穎的Hard Text Attribute Binding(硬文本屬性綁定)算法,以確保每個(gè)實(shí)例的文本嵌入正確綁定相關(guān)的視覺(jué)信息。此外,為了在保持每個(gè)實(shí)例圖像嵌入屬性準(zhǔn)確的同時(shí)增強(qiáng)生成圖像的整體和諧性,對(duì) FLUX 中的每一層進(jìn)行了實(shí)驗(yàn)分析,并決定僅在 FLUX 模型的中間層應(yīng)用 Hard Image Attribute Binding(硬圖像屬性綁定)。在其他所有層中,使用Soft Image Attribute Binding(軟圖像屬性綁定)。
準(zhǔn)備工作
如上圖 2 (a) 所示,DreamRenderer 首先通過(guò) T5 文本編碼器分別嵌入每個(gè)實(shí)例的輸入文本描述和全局提示。這些編碼后的嵌入隨后被連接起來(lái),形成生成過(guò)程的完整文本嵌入。本文的方法要求用戶提供深度圖或邊緣圖作為結(jié)構(gòu)指導(dǎo),這為生成圖像中實(shí)例的空間排列提供了基礎(chǔ)。對(duì)于實(shí)例定位,利用用戶提供的邊界框或掩碼來(lái)識(shí)別每個(gè)實(shí)例在結(jié)構(gòu)指導(dǎo)中的區(qū)域。
硬文本屬性綁定
動(dòng)機(jī):當(dāng)生成單個(gè)實(shí)例時(shí),F(xiàn)LUX 模型通常會(huì)生成與文本提示一致的圖像,表現(xiàn)出最少的屬性錯(cuò)誤。在這種情況下,聯(lián)合注意力中的圖像和文本標(biāo)記僅關(guān)注該單個(gè)實(shí)例的信息,從而使文本嵌入能夠綁定準(zhǔn)確的視覺(jué)屬性?;谶@一觀察,提出在多實(shí)例場(chǎng)景中,每個(gè)實(shí)例的圖像和文本標(biāo)記應(yīng)主要關(guān)注自身,而不是屬于其他實(shí)例的標(biāo)記,從而使文本嵌入能夠有效綁定正確的視覺(jué)信息。
樸素解決方案:確保每個(gè)實(shí)例的文本嵌入綁定正確屬性的一個(gè)直接方法是在聯(lián)合注意力過(guò)程中獨(dú)立處理每個(gè)實(shí)例。在這種方法中,給定實(shí)例的圖像和文本標(biāo)記僅與自身交互,與其他實(shí)例的標(biāo)記保持隔離。然而,這種完全隔離引入了一個(gè)顯著的缺點(diǎn):它破壞了整體圖像的視覺(jué)和諧性,并顯著降低了生成結(jié)果的質(zhì)量(如下圖 7 所示)。
橋接圖像標(biāo)記的進(jìn)階解決方案:由于在聯(lián)合注意力中嚴(yán)格隔離每個(gè)實(shí)例的原始圖像標(biāo)記會(huì)降低圖像質(zhì)量,DreamRenderer 提出了一種進(jìn)階解決方案:在聯(lián)合注意力過(guò)程中,為每個(gè)實(shí)例的圖像標(biāo)記創(chuàng)建一個(gè)額外的副本,稱為 Bridge Image Tokens(橋接圖像標(biāo)記)。這些橋接圖像標(biāo)記不會(huì)貢獻(xiàn)到最終輸出圖像中,而是僅用于在聯(lián)合注意力過(guò)程中幫助每個(gè)實(shí)例的文本嵌入綁定正確的視覺(jué)屬性。如圖 2 所示,橋接圖像標(biāo)記和每個(gè)實(shí)例的文本標(biāo)記與單實(shí)例生成過(guò)程中的對(duì)齊方式完全相同,確保最終文本嵌入中的視覺(jué)屬性與文本描述一致。形式上,對(duì)于第 個(gè)實(shí)例,硬文本屬性綁定的注意力掩碼 定義為:
圖像屬性綁定
概述:在確保文本嵌入屬性的準(zhǔn)確性之后,下一步是保證每個(gè)實(shí)例的圖像標(biāo)記中視覺(jué)屬性的正確性。DreamRenderer 在關(guān)鍵綁定層使用 Hard Image Attribute Binding(硬圖像屬性綁定),以確保每個(gè)實(shí)例以正確的屬性渲染。在其余層中,使用 Soft Image Attribute Binding(軟圖像屬性綁定),以確保所有實(shí)例最終形成一個(gè)連貫的圖像。后面將詳細(xì)說(shuō)明硬圖像屬性綁定和軟圖像屬性綁定的機(jī)制,并解釋如何識(shí)別用于硬圖像屬性綁定的關(guān)鍵層。
搜索關(guān)鍵綁定層:如下圖 3 所示,在 FLUX 網(wǎng)絡(luò)(由 57 個(gè)聯(lián)合注意力層組成)中逐層應(yīng)用硬圖像屬性綁定,并與在所有層中使用軟圖像綁定的結(jié)果進(jìn)行比較,以確定哪些層更適合綁定特定實(shí)例屬性。圖 3 的結(jié)果表明,在 FLUX 的輸入層和輸出層附近應(yīng)用硬圖像綁定會(huì)導(dǎo)致性能顯著下降。相反,在 FLUX 的中間層實(shí)施硬圖像屬性綁定通常會(huì)增強(qiáng)屬性保真度?;谶@些發(fā)現(xiàn),F(xiàn)LUX 的輸入層和輸出層主要處理全局圖像信息,而中間層在渲染圖像中實(shí)例屬性方面起著關(guān)鍵作用。因此,在 FLUX 的中間層執(zhí)行硬圖像綁定,而在其余層使用軟圖像綁定。這種方法在實(shí)例屬性保真度和圖像整體連貫性之間實(shí)現(xiàn)了最佳平衡。
實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置
基線方法:除了 FLUX 模型外,還評(píng)估了本文的方法與其他幾種最先進(jìn)的多實(shí)例生成方法的對(duì)比。由于 DreamRenderer 被設(shè)計(jì)為即插即用的解決方案,通過(guò)將其與現(xiàn)有方法(如 GLIGEN、InstanceDiffusion、MIGC 和 3DIS)集成來(lái)進(jìn)行實(shí)驗(yàn)。
實(shí)現(xiàn)細(xì)節(jié):分別使用 FLUX.1-Canny 和 FLUX.1-Depth 進(jìn)行邊緣條件和深度條件生成。在這兩種情況下,我們對(duì)圖像進(jìn)行 20 步采樣。在深度條件生成中,我們將無(wú)分類器引導(dǎo)(CFG)的比例設(shè)置為 10.0,而在邊緣條件生成中,CFG 比例設(shè)置為 30。在實(shí)驗(yàn)中,對(duì)于通過(guò)邊界框指定位置的實(shí)例,我們進(jìn)一步使用 SAM-2 模型對(duì)其進(jìn)行分割,以獲得更精確的實(shí)例掩碼。
評(píng)估基準(zhǔn)本文在兩個(gè)廣泛使用的基準(zhǔn)上進(jìn)行了實(shí)驗(yàn):
- COCO-POS 基準(zhǔn):要求根據(jù)指定的布局生成圖像。從 COCO 數(shù)據(jù)集的圖像中提取深度圖或邊緣圖作為條件信號(hào),并利用數(shù)據(jù)集的固有布局進(jìn)行渲染。模型必須生成與指定位置的實(shí)例類別匹配的結(jié)果。將本文的方法與包括 Multi-Diffusion 和 3DIS 在內(nèi)的無(wú)需訓(xùn)練的渲染方法進(jìn)行比較。
- COCO-MIG 基準(zhǔn):測(cè)試具有精確位置和屬性控制的多實(shí)例生成。通過(guò)首先使用這些模型生成 RGB 圖像,然后提取深度圖并結(jié)合布局進(jìn)行實(shí)例渲染,來(lái)評(píng)估DreamRenderer與最先進(jìn)的 MIG 模型的集成能力。這評(píng)估了DreamRenderer在應(yīng)用于現(xiàn)有 MIG 框架時(shí)的屬性控制效果。
評(píng)估指標(biāo)本文使用以下指標(biāo)來(lái)評(píng)估模型:
- 平均交并比(MIoU):衡量渲染實(shí)例位置與目標(biāo)位置之間的重疊比例。
- 局部 CLIP 分?jǐn)?shù):評(píng)估渲染實(shí)例與其對(duì)應(yīng)文本描述的視覺(jué)一致性。
- 平均精度(AP):評(píng)估渲染圖像布局的準(zhǔn)確性。
- 實(shí)例成功率(ISR):計(jì)算正確渲染實(shí)例的比例。
- 圖像成功率(ISR):衡量所有實(shí)例均正確渲染的圖像比例。
與最先進(jìn)方法的比較
COCO-POS 基準(zhǔn):下表 1 展示了本文的方法與 FLUX 和 3DIS 的定量比較結(jié)果。在深度引導(dǎo)和邊緣引導(dǎo)生成場(chǎng)景中,本文的方法在所有指標(biāo)上均表現(xiàn)出一致的優(yōu)勢(shì)。在深度引導(dǎo)設(shè)置中,DreamRenderer 在 SR(62.50% vs. 3DIS 的 53.88%)上顯示出顯著提升,表明其生成場(chǎng)景結(jié)構(gòu)更加連貫。高 ISR(94.51%)和 MIoU(84.36%)進(jìn)一步證實(shí)了其在實(shí)例級(jí)別控制的精確性。在更具挑戰(zhàn)性的邊緣引導(dǎo)場(chǎng)景中,DreamRenderer 的 SR 也比 3DIS 高出 5.21%。同時(shí),如下圖 4 所示,本文的方法并未影響原始 FLUX 模型的圖像生成質(zhì)量——這得益于僅在關(guān)鍵層應(yīng)用硬圖像屬性綁定。
COCO-MIG 基準(zhǔn):下表 2 和圖 5 展示了將 DreamRenderer 應(yīng)用于各種最先進(jìn)的布局到圖像方法的結(jié)果。如圖所示,DreamRenderer 顯著增強(qiáng)了實(shí)例屬性控制的準(zhǔn)確性,最終將圖像成功率(ISR)比 GLIGEN 提高了 26.8%,比 InstanceDiffusion 提高了 19.9%,比 MIGC 提高了 8.3%,比 3DIS 提高了 7.4%。值得注意的是,隨著需要控制的實(shí)例數(shù)量增加,這種改進(jìn)變得更加顯著:例如,當(dāng)控制兩個(gè)實(shí)例時(shí),DreamRenderer 的性能提升僅為 2.5%,而在控制六個(gè)實(shí)例時(shí),提升達(dá)到 10.5%。這些優(yōu)勢(shì)源于我們的硬文本屬性綁定算法,該算法確保每個(gè)實(shí)例的文本嵌入在聯(lián)合注意力過(guò)程中準(zhǔn)確綁定其視覺(jué)屬性,即使對(duì)于大量實(shí)例也是如此。
用戶研究下表 3 展示了一項(xiàng)有 31 名參與者參與的用戶研究,比較了本文的方法與 FLUX 和 3DIS 在感知質(zhì)量上的表現(xiàn)。參與者在盲測(cè)中查看成對(duì)的輸出,并根據(jù)(1)布局準(zhǔn)確性和(2)圖像質(zhì)量進(jìn)行評(píng)分,使用 5 分制,輸入布局和文本描述會(huì)顯示。每名參與者評(píng)估了 17 對(duì)輸出。結(jié)果顯示,我們提出的 DreamRenderer 不僅增強(qiáng)了 FLUX 模型的布局控制能力,還生成了對(duì)用戶更具視覺(jué)吸引力的輸出。
消融實(shí)驗(yàn)
橋接圖像標(biāo)記用于硬文本屬性綁定:下表 4 和圖 7 展示了我們對(duì)硬文本屬性綁定機(jī)制的消融實(shí)驗(yàn)結(jié)果。樸素解決方案(§ 3.5)在聯(lián)合注意力過(guò)程中隔離每個(gè)實(shí)例,破壞了模型的固有特征分布,從而導(dǎo)致性能下降。引入橋接圖像標(biāo)記(不參與最終輸出)可以有效解決這一問(wèn)題,使文本標(biāo)記能夠綁定正確的屬性,并在不損害圖像質(zhì)量的情況下提高準(zhǔn)確性。隨著控制實(shí)例數(shù)量的增加,硬文本屬性綁定的優(yōu)勢(shì)變得更加顯著:例如,從控制 2 個(gè)實(shí)例增加到 6 個(gè)實(shí)例時(shí),實(shí)例成功率(ISR)的提升從 3.5% 增加到 6.2%。
圖像屬性綁定的關(guān)鍵層:下表 5 和圖 6 展示了我們對(duì)硬圖像屬性綁定機(jī)制的消融實(shí)驗(yàn)結(jié)果。在 FLUX 的輸入層或輸出層應(yīng)用硬圖像屬性綁定并未帶來(lái)明顯的性能提升,反而顯著降低了圖像質(zhì)量,這表明這些層對(duì)模型的全局信息處理至關(guān)重要。在這些階段強(qiáng)加實(shí)例或區(qū)域隔離會(huì)嚴(yán)重破壞中間特征分布,最終導(dǎo)致性能急劇下降。相比之下,將硬圖像屬性綁定限制在中間層可以在保持圖像質(zhì)量的同時(shí)顯著提高性能——例如,將實(shí)例成功率(ISR)提高 15.7%。這一發(fā)現(xiàn)表明,F(xiàn)LUX 的中間層在確定每個(gè)實(shí)例的視覺(jué)內(nèi)容方面起著關(guān)鍵作用,使其更適合綁定實(shí)例的屬性。
結(jié)論
DreamRenderer,一種即插即用的方法,能夠在深度和邊緣條件生成中控制特定區(qū)域和實(shí)例的內(nèi)容,同時(shí)不損害原始模型的圖像質(zhì)量。本文有兩個(gè)關(guān)鍵貢獻(xiàn):
- 硬文本屬性綁定機(jī)制:引入了一種新穎的硬文本屬性綁定機(jī)制,利用橋接圖像標(biāo)記(Bridge Image Tokens),確保每個(gè)實(shí)例的文本嵌入在聯(lián)合注意力過(guò)程中綁定正確的視覺(jué)信息。
- 關(guān)鍵層的硬圖像屬性綁定:通過(guò)對(duì) FLUX 各層的實(shí)驗(yàn)分析,僅在關(guān)鍵層應(yīng)用硬圖像屬性綁定,在保持精確實(shí)例級(jí)別控制的同時(shí),確保全局圖像的連貫性。
在 COCO-POS 和 COCO-MIG 基準(zhǔn)上的大量實(shí)驗(yàn)證明了 DreamRenderer 的卓越性能。在深度引導(dǎo)設(shè)置中,本文的方法實(shí)現(xiàn)了 62.50% 的 SR(成功率)、94.51% 的 ISR(實(shí)例成功率)和 84.36% 的 MIoU(平均交并比),顯著優(yōu)于現(xiàn)有方法。即使在更具挑戰(zhàn)性的邊緣引導(dǎo)設(shè)置中,DreamRenderer 依然表現(xiàn)穩(wěn)健,實(shí)現(xiàn)了 74.61% 的 ISR 和 66.95% 的 MIoU。此外,DreamRenderer 可以作為重新渲染器,顯著提高布局到圖像方法的準(zhǔn)確性。其無(wú)需訓(xùn)練的特性使得 DreamRenderer 能夠輕松應(yīng)用于各種基礎(chǔ)模型,具有高度的靈活性。
本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)
原文鏈接:??https://mp.weixin.qq.com/s/p2p6Te_cUIME2YH5jaj2Qw??
