FLUX加持大幅提升渲染質(zhì)量和控制能力!浙大&哈佛提出3DIS升級版3DIS-FLUX
文章鏈接:https://arxiv.org/pdf/2501.05131
項目鏈接:https://limuloo.github.io/3DIS/
亮點直擊
- 3DIS的創(chuàng)新:通過深度驅(qū)動的解耦生成框架,大大降低了對計算資源的需求,并解決了適配器方法的重新訓(xùn)練問題。
- FLUX的集成:3DIS-FLUX利用FLUX模型提升了渲染質(zhì)量和控制能力,超越了傳統(tǒng)的U-Net架構(gòu)。
- 訓(xùn)練-free細(xì)節(jié)渲染:通過細(xì)致控制FLUX模型中的Attention機(jī)制,成功實現(xiàn)了對每個實例細(xì)節(jié)的精確渲染,避免了額外的訓(xùn)練負(fù)擔(dān)。
- 性能與質(zhì)量雙重提升:3DIS-FLUX在多個基準(zhǔn)測試中顯示出比現(xiàn)有方法更好的實例成功率和更高的圖像質(zhì)量。
總結(jié)速覽
解決的問題:
- 適配器方法的挑戰(zhàn):當(dāng)前的MIG方法通?;谶m配器,這要求在每次推出更先進(jìn)的模型時重新訓(xùn)練新的適配器,消耗大量資源。此外,高質(zhì)量的實例級標(biāo)注數(shù)據(jù)難以獲得。
- 計算資源和數(shù)據(jù)依賴:適配器方法需要為不同的模型進(jìn)行重新訓(xùn)練,這對資源有限的用戶造成了困擾;同時,實例級別的標(biāo)注數(shù)據(jù)難以獲得。
提出的方案:
- 3DIS框架:通過將MIG過程分為兩個階段:1) 基于深度的場景構(gòu)建;2) 利用預(yù)訓(xùn)練的深度控制模型進(jìn)行細(xì)節(jié)渲染,減輕了對大量訓(xùn)練數(shù)據(jù)和計算資源的依賴。特別地,3DIS在場景構(gòu)建階段只需要訓(xùn)練深度生成模型。
- 3DIS-FLUX擴(kuò)展:在3DIS框架基礎(chǔ)上,引入FLUX模型用于增強(qiáng)渲染能力,利用FLUX.1-Depth-dev模型進(jìn)行深度圖控制的圖像生成,同時通過訓(xùn)練-free的細(xì)節(jié)渲染器對實例屬性進(jìn)行精細(xì)化控制,確保每個實例的細(xì)節(jié)符合布局信息。
應(yīng)用的技術(shù):
- 3DIS框架:將MIG分為深度生成和細(xì)節(jié)渲染兩個獨立的階段,前者使用布局到深度圖的生成模型,后者利用預(yù)訓(xùn)練的深度控制模型進(jìn)行細(xì)節(jié)渲染。
- FLUX模型:作為基于Diffusion Transformer(DiT)架構(gòu)的模型,F(xiàn)LUX具有比傳統(tǒng)U-Net架構(gòu)更強(qiáng)的渲染能力和控制能力。特別是在3DIS-FLUX中,F(xiàn)LUX被用來生成基于深度圖的圖像,并通過約束Joint Attention機(jī)制精確渲染每個實例的細(xì)節(jié)。
- 訓(xùn)練-free的細(xì)節(jié)渲染器:通過約束FLUX的Joint Attention機(jī)制,確保每個實例的圖像tokens僅關(guān)注自己的text tokens,從而精確渲染實例屬性。
達(dá)到的效果:
- 提高渲染精度:3DIS-FLUX在COCO-MIG基準(zhǔn)測試中,相比原始的3DIS方法(使用SD2和SDXL),實例成功率(ISR)提高了6.9%。相比于訓(xùn)練-free的SOTA方法Multi-Diffusion,ISR提高了41%以上,超越了當(dāng)前的SOTA適配器方法InstanceDiffusion(提高了12.4%)。
- 圖像質(zhì)量提升:FLUX模型的引入大幅提高了圖像質(zhì)量,3DIS-FLUX在渲染效果上超過了其他方法。
方法
前提
FLUX是一種最新的最先進(jìn)的擴(kuò)散Transformer(DiT)模型,相比于以前的模型,它生成的圖像質(zhì)量更高,并展示了強(qiáng)大的文本控制能力。給定輸入文本,F(xiàn)LUX 首先使用 T5 文本編碼器將其編碼為文本嵌入。然后,將這個文本嵌入與圖像嵌入連接,進(jìn)行聯(lián)合注意力機(jī)制。經(jīng)過幾輪聯(lián)合注意力后,F(xiàn)LUX 模型解碼輸出的圖像嵌入,生成與輸入文本相對應(yīng)的高質(zhì)量圖像。
問題定義
概述
下圖 2 展示了 3DIS-FLUX 的概述。與原始 3DIS 相似,3DIS-FLUX 將多實例生成解耦為兩個階段:生成場景深度圖和渲染細(xì)粒度細(xì)節(jié)。在第一階段,3DIS-FLUX 使用來自 3DIS 的布局到深度模型生成基于用戶提供的布局的場景深度圖。在第二階段,3DIS-FLUX 使用 FLUX.1-depth-dev模型從場景深度圖生成圖像,從而控制生成圖像的布局。為了進(jìn)一步確保每個實例的細(xì)粒度屬性得到準(zhǔn)確渲染,3DIS-FLUX 引入了細(xì)節(jié)渲染器,該渲染器在聯(lián)合注意力過程中根據(jù)布局信息約束注意力掩碼。
FLUX 細(xì)節(jié)渲染器
動機(jī)
給定第一階段生成的場景深度圖,F(xiàn)LUX.1-depth-dev 模型(BlackForest,2024)能夠生成符合指定布局的高質(zhì)量圖像。在僅涉及單個實例的場景中,用戶可以通過描述一個全局圖像文本來實現(xiàn)精確渲染。然而,當(dāng)嘗試用一個全局文本描述準(zhǔn)確地渲染多個實例時,會遇到挑戰(zhàn)。例如,在上面圖 2 所示的案例中,使用像“一個橙色杯子,一個黃色杯子,一個藍(lán)色杯子”這樣的描述渲染場景深度圖中的每個“杯子”時,會遇到困難。這種方法常常導(dǎo)致顏色不一致的問題,例如原本應(yīng)為藍(lán)色的杯子被渲染為橙色,下圖 4 中有更多例子說明了這個問題。因此,將空間約束整合到 FLUX 模型的聯(lián)合注意力過程中對于準(zhǔn)確渲染多個實例至關(guān)重要。為了解決這些問題,本文引入了一個簡單但有效的 FLUX 細(xì)節(jié)渲染器,大大提高了渲染精度。
準(zhǔn)備工作
控制圖像嵌入的注意力
FLUX 模型通過多步采樣生成圖像。
控制文本嵌入的注意力
實驗
實現(xiàn)細(xì)節(jié)
實驗設(shè)置
基準(zhǔn)方法
將3DIS 方法與最先進(jìn)的多實例生成方法進(jìn)行了比較。比較中涉及的方法包括無訓(xùn)練的方法:BoxDiffusion和 MultiDiffusion;以及基于適配器的方法:GLIGEN、InstanceDiffusion和 MIGC。
評估基準(zhǔn)
在 COCO-MIG基準(zhǔn)上進(jìn)行了實驗,以評估模型控制實例位置和準(zhǔn)確渲染每個生成實例的細(xì)粒度屬性的能力。為了進(jìn)行全面評估,每個模型在基準(zhǔn)上生成了 750 張圖像。
評估指標(biāo)
使用以下指標(biāo)來評估模型:
- 平均交并比(MIoU),衡量生成的實例位置與目標(biāo)位置之間的重疊度;
- 實例成功率(ISR),計算正確定位且具有準(zhǔn)確屬性的實例比例。
比較
與最先進(jìn)方法的比較
下表 1 中展示的結(jié)果表明,3DIS 方法不僅展現(xiàn)了強(qiáng)大的位置控制能力,還具有穩(wěn)健的細(xì)節(jié)渲染能力。值得注意的是,3DIS 的整個實例屬性渲染過程是不需要訓(xùn)練的。與之前的最先進(jìn)無訓(xùn)練方法 MultiDiffusion 相比,3DIS-FLUX 在實例成功率(ISR)上提高了 41%。此外,與需要訓(xùn)練的 SOTA 適配器方法 InstanceDiffusion 相比,3DIS-FLUX 在 ISR 上提高了 12.4%。更重要的是,3DIS 方法并不與現(xiàn)有的適配器方法互斥。例如,3DIS+GLIGEN 和 3DIS+MIGC 的組合在性能上超越了單獨使用適配器方法,表現(xiàn)更加優(yōu)越。
下圖 3 提供了 3DIS 與其他最先進(jìn)方法的視覺對比,結(jié)果表明,3DIS 不僅在場景構(gòu)建上表現(xiàn)出色,而且在實例細(xì)節(jié)渲染上也有強(qiáng)大的能力。此外,3DIS 與各種基礎(chǔ)模型兼容,提供了比以前方法更廣泛的應(yīng)用性。
不同模型的渲染比較
如表 1 所示,采用更強(qiáng)大的模型顯著提高了渲染成功率。例如,使用 FLUX 模型進(jìn)行渲染比使用 SD1.5 模型的實例成功率高出 9.9%。
消融研究
FLUX 細(xì)節(jié)渲染器
前面圖 4 的結(jié)果表明,如果不使用細(xì)節(jié)渲染器來管理 FLUX 模型的聯(lián)合注意力過程,在多實例場景中成功渲染每個實例將變得非常困難。下表 2 的數(shù)據(jù)表明,引入細(xì)節(jié)渲染器可以將實例成功率(ISR)提高 17.8%,成功率(SR)提高 12.2%。此外,圖 4 的結(jié)果還表明,加入細(xì)節(jié)渲染器不會顯著降低圖像質(zhì)量。
控制圖像嵌入的注意力
表 2 的結(jié)果顯示,在聯(lián)合注意力機(jī)制中,控制每個圖像標(biāo)記僅關(guān)注其對應(yīng)的實例描述標(biāo)記(即 I2T 控制)對于成功渲染每個實例至關(guān)重要,這使得實例成功率(ISR)提高了 19.1%。此外,在過程的早期步驟中,限制每個實例的圖像標(biāo)記僅關(guān)注屬于同一實例的其他圖像標(biāo)記(即 I2I 控制)也帶來了顯著的改進(jìn),使 ISR 提高了 7.5%。
控制文本嵌入的注意力
與使用 CLIP 作為文本編碼器的模型(如 SD1.5、SD2和 SDXL )不同,F(xiàn)LUX 使用 T5 文本編碼器。該編碼器僅在文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,生成的嵌入不包含視覺信息。因此,在聯(lián)合注意力機(jī)制中,在多實例上下文中對文本標(biāo)記施加約束變得尤為重要。正如前面表 2 和圖 5 的結(jié)果所示,在聯(lián)合注意力機(jī)制中,如果不對文本標(biāo)記施加約束—允許一個實例的文本標(biāo)記關(guān)注其他實例的文本標(biāo)記—會顯著降低渲染成功率,ISR 減少了 16.3%。此外,我們的分析還發(fā)現(xiàn),添加約束,使得每個實例的文本標(biāo)記僅關(guān)注其對應(yīng)的圖像標(biāo)記,并未帶來顯著的改進(jìn)。
結(jié)論
3DIS-FLUX,這是對先前 3DIS 框架的擴(kuò)展。原始的 3DIS 探索了一種僅使用 U-net 架構(gòu)的免訓(xùn)練渲染方法。與之相比,3DIS-FLUX 利用了最先進(jìn)的 DiT 模型 FLUX 進(jìn)行渲染。在 COCO-MIG 數(shù)據(jù)集上進(jìn)行的實驗表明,使用更強(qiáng)大的 FLUX 模型進(jìn)行渲染使得 3DIS-FLUX 顯著優(yōu)于先前的 3DIS-SDXL 方法,甚至超越了最先進(jìn)的基于適配器的 MIG 方法。3DIS-FLUX 的成功突顯了 3DIS 框架的靈活性,它能夠快速適應(yīng)各種新的、更強(qiáng)大的模型。預(yù)計 3DIS 將使用戶能夠利用更廣泛的基礎(chǔ)模型進(jìn)行多實例生成,并擴(kuò)展其在更多應(yīng)用場景中的適用性。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
