自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

驚艷!單模型統(tǒng)一多圖個(gè)性化生成!字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源!

發(fā)布于 2025-4-11 10:10
瀏覽
0收藏

驚艷!單模型統(tǒng)一多圖個(gè)性化生成!字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源!-AI.x社區(qū)

文章鏈接:https://huggingface.co/papers/2504.02160 
arXiv鏈接:https://arxiv.org/pdf/2504.02160 
代碼鏈接:https://github.com/bytedance/UNO 
項(xiàng)目網(wǎng)頁(yè):https://bytedance.github.io/UNO/ 

驚艷!單模型統(tǒng)一多圖個(gè)性化生成!字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源!-AI.x社區(qū)

亮點(diǎn)直擊

  • 提出了模型-數(shù)據(jù)協(xié)同進(jìn)化范式,突破了傳統(tǒng)定制化圖像生成中數(shù)據(jù)瓶頸的限制。
  • 開(kāi)發(fā)了漸進(jìn)式數(shù)據(jù)生成框架和通用定制化模型UNO,實(shí)現(xiàn)了從單主體到多主體的高質(zhì)量圖像生成。
  • 在多個(gè)任務(wù)中取得了卓越的性能,包括單主體和多主體驅(qū)動(dòng)的圖像生成,并且能泛化到id、tryon、style等場(chǎng)景

驚艷!單模型統(tǒng)一多圖個(gè)性化生成!字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源!-AI.x社區(qū)

總結(jié)速覽

解決的問(wèn)題

  • 數(shù)據(jù)瓶頸:高質(zhì)量、多視角主體一致的配對(duì)數(shù)據(jù)難以獲取,限制了模型的可擴(kuò)展性。
  • 主體擴(kuò)展性:現(xiàn)有方法主要針對(duì)單主體生成,難以處理復(fù)雜且種類(lèi)豐富的多主體場(chǎng)景。

提出的方案

  • 提出了模型-數(shù)據(jù)協(xié)同進(jìn)化范式,通過(guò)Text-to-Image(T2I) 模型生成更好的單主體定制化數(shù)據(jù),進(jìn)而訓(xùn)練更強(qiáng)大的Subject-to-Image(S2I)模型用于生成質(zhì)量高、種類(lèi)豐富的多主體數(shù)據(jù)。
  • 開(kāi)發(fā)了漸進(jìn)式數(shù)據(jù)生成框架和通用定制化模型UNO,實(shí)現(xiàn)從單主體到多主體的高質(zhì)量圖像生成。

應(yīng)用的技術(shù)

  • 基于當(dāng)前最先進(jìn)的T2I模型FLUX,改進(jìn)其成支持多條件生成的S2I模型。
  • 漸進(jìn)式跨模態(tài)對(duì)齊:通過(guò)逐步訓(xùn)練實(shí)現(xiàn)多圖像條件的處理。
  • 通用旋轉(zhuǎn)位置嵌入(UnoPE):解決多圖像條件下的屬性混淆問(wèn)題。

達(dá)到的效果

  • 在DreamBench和多主體生成基準(zhǔn)測(cè)試中,UNO在一致性和文本可控性方面均取得了最佳性能。
  • 顯著減少了“復(fù)制-粘貼”現(xiàn)象,提高了生成圖像的質(zhì)量和可控性。
  • 極佳的泛化能力,能覆蓋換裝、人物保持、風(fēng)格化等個(gè)性化生成

驚艷!單模型統(tǒng)一多圖個(gè)性化生成!字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源!-AI.x社區(qū)

方法

上下文數(shù)據(jù)生成框架

驚艷!單模型統(tǒng)一多圖個(gè)性化生成!字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源!-AI.x社區(qū)

  • 單主體配對(duì)數(shù)據(jù)生成:通過(guò)預(yù)定義的文本模板和LLM構(gòu)建分類(lèi)樹(shù),生成多樣化主題和場(chǎng)景描述,利用DiT上下文生成能力直接生成主題一致的圖像對(duì),構(gòu)建VLM打分器進(jìn)行過(guò)濾
  • 多主體配對(duì)數(shù)據(jù)生成:基于單主體數(shù)據(jù)訓(xùn)練的Subject-to-Image(S2I)模型,用開(kāi)集檢測(cè)得到另一新主體反向生成定制化數(shù)據(jù),從而構(gòu)建多主體一致的圖像對(duì),避免“復(fù)制-粘貼”問(wèn)題。

驚艷!單模型統(tǒng)一多圖個(gè)性化生成!字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源!-AI.x社區(qū)

同時(shí),作者在論文中也做了充足實(shí)驗(yàn)說(shuō)明了層級(jí)數(shù)據(jù)過(guò)濾的重要性和有效性。

漸進(jìn)式訓(xùn)練策略

驚艷!單模型統(tǒng)一多圖個(gè)性化生成!字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源!-AI.x社區(qū)

DiT模型最初是為純T2I設(shè)計(jì)的,其輸入是文本提示和噪聲圖像的嵌入。然而,當(dāng)嘗試引入多圖像條件(如參考圖像)時(shí),直接輸入多圖像可能導(dǎo)致模型訓(xùn)練不穩(wěn)定或性能下降。這是因?yàn)槎鄨D像條件的引入會(huì)改變模型的收斂分布,導(dǎo)致模型難以適應(yīng)復(fù)雜的輸入。為了克服這一問(wèn)題,論文提出了漸進(jìn)式跨模態(tài)對(duì)齊的訓(xùn)練方法,分為兩個(gè)階段:

  • 單主題訓(xùn)練階段(Stage I)
  • 目標(biāo):讓模型學(xué)會(huì)處理單圖像條件的輸入,生成與參考圖像一致的結(jié)果。
  • 方法:使用單主體數(shù)據(jù)對(duì)對(duì)預(yù)訓(xùn)練的T2I模型進(jìn)行微調(diào)。輸入包括文本提示、噪聲圖像嵌入和單一參考圖像嵌入。
  • 效果:通過(guò)這一階段,模型能夠理解如何將參考圖像的信息融入生成過(guò)程中,生成與參考圖像一致的單主體圖像。

驚艷!單模型統(tǒng)一多圖個(gè)性化生成!字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源!-AI.x社區(qū)

驚艷!單模型統(tǒng)一多圖個(gè)性化生成!字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源!-AI.x社區(qū)

  • 多主題訓(xùn)練階段(Stage II)
  • 目標(biāo):讓模型學(xué)會(huì)處理多圖像條件的輸入,生成與多個(gè)參考圖像一致的結(jié)果。
  • 方法:在單主題訓(xùn)練的基礎(chǔ)上,進(jìn)一步使用多主體數(shù)據(jù)對(duì)進(jìn)行訓(xùn)練。輸入包括文本提示、噪聲圖像嵌入和多個(gè)參考圖像嵌入。
  • 效果:通過(guò)這一階段,模型能夠處理多個(gè)參考圖像的輸入,并生成與所有參考圖像一致的多主題圖像。

驚艷!單模型統(tǒng)一多圖個(gè)性化生成!字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源!-AI.x社區(qū)

論文通過(guò)從簡(jiǎn)單到復(fù)雜的訓(xùn)練范式,讓模型能夠逐步適應(yīng)多圖像條件的輸入,避免直接引入多圖像條件導(dǎo)致的訓(xùn)練不穩(wěn)定。

通用旋轉(zhuǎn)位置嵌入(UnoPE)

在多圖像條件下,DiT需要處理多個(gè)參考圖像的嵌入。然而,直接使用原始的位置索引可能導(dǎo)致以下問(wèn)題:一是空間結(jié)構(gòu)依賴:模型可能過(guò)度依賴參考圖像的空間結(jié)構(gòu)(如位置和布局),而忽略文本提示中提供的語(yǔ)義信息;一是屬性混淆:不同參考圖像之間可能存在語(yǔ)義差距,導(dǎo)致模型難以準(zhǔn)確生成目標(biāo)圖像。

驚艷!單模型統(tǒng)一多圖個(gè)性化生成!字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源!-AI.x社區(qū)

論文提出了通用旋轉(zhuǎn)位置嵌入(UnoPE),通過(guò)調(diào)整位置索引的方式,使模型能夠更好地關(guān)注文本特征,而不是簡(jiǎn)單地復(fù)制參考圖像的空間結(jié)構(gòu)。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)設(shè)置

  • 數(shù)據(jù)生成:通過(guò)漸進(jìn)式數(shù)據(jù)生成框架生成了230k單主體數(shù)據(jù)對(duì)和15k多主體數(shù)據(jù)對(duì)。
  • 訓(xùn)練細(xì)節(jié):基于FLUX.1預(yù)訓(xùn)練模型,使用LoRA秩為512進(jìn)行訓(xùn)練,總批次為16,學(xué)習(xí)率為1e-5。
  • 評(píng)估指標(biāo):使用DINO和CLIP-I分?jǐn)?shù)評(píng)估主體一致性,CLIP-T分?jǐn)?shù)評(píng)估文本遵循度。

結(jié)果

  • 定性指標(biāo):UNO在Dreambench單主體和多主體生成中均能保持主體細(xì)節(jié)和文本指令的一致性,顯著優(yōu)于其他方法,幾乎做到了對(duì)參考圖細(xì)節(jié)的完美保留。

驚艷!單模型統(tǒng)一多圖個(gè)性化生成!字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源!-AI.x社區(qū)

驚艷!單模型統(tǒng)一多圖個(gè)性化生成!字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源!-AI.x社區(qū)

  • 定量指標(biāo):在DreamBench數(shù)據(jù)集上,UNO在單主題生成中取得了最高的DINO(0.760)和CLIP-I(0.835)分?jǐn)?shù);在多主題生成中,DINO和CLIP-I分?jǐn)?shù)分別為0.542和0.733,成為目前一致性生成的SOTA。

驚艷!單模型統(tǒng)一多圖個(gè)性化生成!字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源!-AI.x社區(qū)

  • 消融實(shí)驗(yàn):論文充分驗(yàn)證了漸進(jìn)式跨模態(tài)對(duì)齊和UnoPE與其它變體相比的有效性。移除這些模塊后,性能顯著下降,證明了它們對(duì)模型性能的關(guān)鍵作用。

驚艷!單模型統(tǒng)一多圖個(gè)性化生成!字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源!-AI.x社區(qū)

應(yīng)用案例

UNO還展示了很強(qiáng)的泛化能力,除了應(yīng)對(duì)更為復(fù)雜的多圖主體保持場(chǎng)景外,還能涵蓋以往身份保持、換裝、風(fēng)格化等任務(wù),從而為未來(lái)工作提供啟發(fā)。

驚艷!單模型統(tǒng)一多圖個(gè)性化生成!字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源!-AI.x社區(qū)

結(jié)論

論文提出的UNO模型通過(guò)模型-數(shù)據(jù)協(xié)同進(jìn)化范式,突破了數(shù)據(jù)瓶頸,實(shí)現(xiàn)了高質(zhì)量的單主體和多主體定制化圖像生成。實(shí)驗(yàn)結(jié)果表明,UNO在主題相似性和文本可控性方面均達(dá)到了最佳性能,具有廣泛的應(yīng)用潛力,例如虛擬試穿、身份保持和風(fēng)格化生成等。未來(lái)工作將進(jìn)一步擴(kuò)展合成數(shù)據(jù)類(lèi)型,以解鎖UNO的更多潛力。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/kz04Sbo35iP7wCRpZ6-RnA??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄