驚艷!單模型統(tǒng)一多圖個(gè)性化生成!字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源!
文章鏈接:https://huggingface.co/papers/2504.02160
arXiv鏈接:https://arxiv.org/pdf/2504.02160
代碼鏈接:https://github.com/bytedance/UNO
項(xiàng)目網(wǎng)頁(yè):https://bytedance.github.io/UNO/
亮點(diǎn)直擊
- 提出了模型-數(shù)據(jù)協(xié)同進(jìn)化范式,突破了傳統(tǒng)定制化圖像生成中數(shù)據(jù)瓶頸的限制。
- 開(kāi)發(fā)了漸進(jìn)式數(shù)據(jù)生成框架和通用定制化模型UNO,實(shí)現(xiàn)了從單主體到多主體的高質(zhì)量圖像生成。
- 在多個(gè)任務(wù)中取得了卓越的性能,包括單主體和多主體驅(qū)動(dòng)的圖像生成,并且能泛化到id、tryon、style等場(chǎng)景
總結(jié)速覽
解決的問(wèn)題
- 數(shù)據(jù)瓶頸:高質(zhì)量、多視角主體一致的配對(duì)數(shù)據(jù)難以獲取,限制了模型的可擴(kuò)展性。
- 主體擴(kuò)展性:現(xiàn)有方法主要針對(duì)單主體生成,難以處理復(fù)雜且種類(lèi)豐富的多主體場(chǎng)景。
提出的方案
- 提出了模型-數(shù)據(jù)協(xié)同進(jìn)化范式,通過(guò)Text-to-Image(T2I) 模型生成更好的單主體定制化數(shù)據(jù),進(jìn)而訓(xùn)練更強(qiáng)大的Subject-to-Image(S2I)模型用于生成質(zhì)量高、種類(lèi)豐富的多主體數(shù)據(jù)。
- 開(kāi)發(fā)了漸進(jìn)式數(shù)據(jù)生成框架和通用定制化模型UNO,實(shí)現(xiàn)從單主體到多主體的高質(zhì)量圖像生成。
應(yīng)用的技術(shù)
- 基于當(dāng)前最先進(jìn)的T2I模型FLUX,改進(jìn)其成支持多條件生成的S2I模型。
- 漸進(jìn)式跨模態(tài)對(duì)齊:通過(guò)逐步訓(xùn)練實(shí)現(xiàn)多圖像條件的處理。
- 通用旋轉(zhuǎn)位置嵌入(UnoPE):解決多圖像條件下的屬性混淆問(wèn)題。
達(dá)到的效果
- 在DreamBench和多主體生成基準(zhǔn)測(cè)試中,UNO在一致性和文本可控性方面均取得了最佳性能。
- 顯著減少了“復(fù)制-粘貼”現(xiàn)象,提高了生成圖像的質(zhì)量和可控性。
- 極佳的泛化能力,能覆蓋換裝、人物保持、風(fēng)格化等個(gè)性化生成
方法
上下文數(shù)據(jù)生成框架
- 單主體配對(duì)數(shù)據(jù)生成:通過(guò)預(yù)定義的文本模板和LLM構(gòu)建分類(lèi)樹(shù),生成多樣化主題和場(chǎng)景描述,利用DiT上下文生成能力直接生成主題一致的圖像對(duì),構(gòu)建VLM打分器進(jìn)行過(guò)濾
- 多主體配對(duì)數(shù)據(jù)生成:基于單主體數(shù)據(jù)訓(xùn)練的Subject-to-Image(S2I)模型,用開(kāi)集檢測(cè)得到另一新主體反向生成定制化數(shù)據(jù),從而構(gòu)建多主體一致的圖像對(duì),避免“復(fù)制-粘貼”問(wèn)題。
同時(shí),作者在論文中也做了充足實(shí)驗(yàn)說(shuō)明了層級(jí)數(shù)據(jù)過(guò)濾的重要性和有效性。
漸進(jìn)式訓(xùn)練策略
DiT模型最初是為純T2I設(shè)計(jì)的,其輸入是文本提示和噪聲圖像的嵌入。然而,當(dāng)嘗試引入多圖像條件(如參考圖像)時(shí),直接輸入多圖像可能導(dǎo)致模型訓(xùn)練不穩(wěn)定或性能下降。這是因?yàn)槎鄨D像條件的引入會(huì)改變模型的收斂分布,導(dǎo)致模型難以適應(yīng)復(fù)雜的輸入。為了克服這一問(wèn)題,論文提出了漸進(jìn)式跨模態(tài)對(duì)齊的訓(xùn)練方法,分為兩個(gè)階段:
- 單主題訓(xùn)練階段(Stage I)
- 目標(biāo):讓模型學(xué)會(huì)處理單圖像條件的輸入,生成與參考圖像一致的結(jié)果。
- 方法:使用單主體數(shù)據(jù)對(duì)對(duì)預(yù)訓(xùn)練的T2I模型進(jìn)行微調(diào)。輸入包括文本提示、噪聲圖像嵌入和單一參考圖像嵌入。
- 效果:通過(guò)這一階段,模型能夠理解如何將參考圖像的信息融入生成過(guò)程中,生成與參考圖像一致的單主體圖像。
- 多主題訓(xùn)練階段(Stage II)
- 目標(biāo):讓模型學(xué)會(huì)處理多圖像條件的輸入,生成與多個(gè)參考圖像一致的結(jié)果。
- 方法:在單主題訓(xùn)練的基礎(chǔ)上,進(jìn)一步使用多主體數(shù)據(jù)對(duì)進(jìn)行訓(xùn)練。輸入包括文本提示、噪聲圖像嵌入和多個(gè)參考圖像嵌入。
- 效果:通過(guò)這一階段,模型能夠處理多個(gè)參考圖像的輸入,并生成與所有參考圖像一致的多主題圖像。
論文通過(guò)從簡(jiǎn)單到復(fù)雜的訓(xùn)練范式,讓模型能夠逐步適應(yīng)多圖像條件的輸入,避免直接引入多圖像條件導(dǎo)致的訓(xùn)練不穩(wěn)定。
通用旋轉(zhuǎn)位置嵌入(UnoPE)
在多圖像條件下,DiT需要處理多個(gè)參考圖像的嵌入。然而,直接使用原始的位置索引可能導(dǎo)致以下問(wèn)題:一是空間結(jié)構(gòu)依賴:模型可能過(guò)度依賴參考圖像的空間結(jié)構(gòu)(如位置和布局),而忽略文本提示中提供的語(yǔ)義信息;一是屬性混淆:不同參考圖像之間可能存在語(yǔ)義差距,導(dǎo)致模型難以準(zhǔn)確生成目標(biāo)圖像。
論文提出了通用旋轉(zhuǎn)位置嵌入(UnoPE),通過(guò)調(diào)整位置索引的方式,使模型能夠更好地關(guān)注文本特征,而不是簡(jiǎn)單地復(fù)制參考圖像的空間結(jié)構(gòu)。
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)設(shè)置
- 數(shù)據(jù)生成:通過(guò)漸進(jìn)式數(shù)據(jù)生成框架生成了230k單主體數(shù)據(jù)對(duì)和15k多主體數(shù)據(jù)對(duì)。
- 訓(xùn)練細(xì)節(jié):基于FLUX.1預(yù)訓(xùn)練模型,使用LoRA秩為512進(jìn)行訓(xùn)練,總批次為16,學(xué)習(xí)率為1e-5。
- 評(píng)估指標(biāo):使用DINO和CLIP-I分?jǐn)?shù)評(píng)估主體一致性,CLIP-T分?jǐn)?shù)評(píng)估文本遵循度。
結(jié)果
- 定性指標(biāo):UNO在Dreambench單主體和多主體生成中均能保持主體細(xì)節(jié)和文本指令的一致性,顯著優(yōu)于其他方法,幾乎做到了對(duì)參考圖細(xì)節(jié)的完美保留。
- 定量指標(biāo):在DreamBench數(shù)據(jù)集上,UNO在單主題生成中取得了最高的DINO(0.760)和CLIP-I(0.835)分?jǐn)?shù);在多主題生成中,DINO和CLIP-I分?jǐn)?shù)分別為0.542和0.733,成為目前一致性生成的SOTA。
- 消融實(shí)驗(yàn):論文充分驗(yàn)證了漸進(jìn)式跨模態(tài)對(duì)齊和UnoPE與其它變體相比的有效性。移除這些模塊后,性能顯著下降,證明了它們對(duì)模型性能的關(guān)鍵作用。
應(yīng)用案例
UNO還展示了很強(qiáng)的泛化能力,除了應(yīng)對(duì)更為復(fù)雜的多圖主體保持場(chǎng)景外,還能涵蓋以往身份保持、換裝、風(fēng)格化等任務(wù),從而為未來(lái)工作提供啟發(fā)。
結(jié)論
論文提出的UNO模型通過(guò)模型-數(shù)據(jù)協(xié)同進(jìn)化范式,突破了數(shù)據(jù)瓶頸,實(shí)現(xiàn)了高質(zhì)量的單主體和多主體定制化圖像生成。實(shí)驗(yàn)結(jié)果表明,UNO在主題相似性和文本可控性方面均達(dá)到了最佳性能,具有廣泛的應(yīng)用潛力,例如虛擬試穿、身份保持和風(fēng)格化生成等。未來(lái)工作將進(jìn)一步擴(kuò)展合成數(shù)據(jù)類(lèi)型,以解鎖UNO的更多潛力。
本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)
