字節(jié)開源新生圖模型:一個(gè)模型統(tǒng)一所有生圖任務(wù),多主體融合效果SOTA?
利用字節(jié)團(tuán)隊(duì)魔改的FLUX模型,可以直接把多個(gè)參考主體放進(jìn)一張圖了。
字節(jié)團(tuán)隊(duì)以FLUX為基礎(chǔ)模型,提出了新的生圖模型UNO,統(tǒng)一了圖像生成任務(wù)中不同輸入條件的處理。
無論是單主體進(jìn)行風(fēng)格變換,還是不同物體的融合,UNO都能直接搞定。
字節(jié)團(tuán)隊(duì)認(rèn)為,UNO主要解決的是參考驅(qū)動的圖像生成中的兩個(gè)主要挑戰(zhàn)——數(shù)據(jù)可擴(kuò)展性和主體可擴(kuò)展性。
傳統(tǒng)方法在從單主體數(shù)據(jù)集擴(kuò)展到多主體數(shù)據(jù)集時(shí)面臨困難,且大多數(shù)方法僅關(guān)注單主體生成,難以應(yīng)用于多主體場景。
為了解決這一問題,團(tuán)隊(duì)提出了“模型-數(shù)據(jù)共同進(jìn)化”的新范式,能夠在增強(qiáng)模型能力的同時(shí),不斷豐富可用的訓(xùn)練數(shù)據(jù)。
多主體參考生圖測試中,UNO的DINO和CLIP得分均達(dá)到了SOTA水平。
網(wǎng)友評價(jià)說,UNO看上去是一個(gè)巨大的飛躍,如果真的能搞定多主體參考,將會大幅激發(fā)定制化AI智能體的潛力。
另外,團(tuán)隊(duì)還在HuggingFace上提供了在線試玩,但前提是擁有HF的GPU額度。
一個(gè)模型搞定單/多主體參考
如開頭所述,UNO將單純的文生圖,以及單/多主體參考這些不同的任務(wù)都整合到了一個(gè)模型當(dāng)中。
具體來說,除了直接的文生圖之外,它可以把多張參考圖當(dāng)中的物體進(jìn)行組合。
當(dāng)然三個(gè)物體也照樣能很好地組合,官方提供的在線Demo當(dāng)中最多可以上傳四張參考圖。
也可以對參考主體中的人物特征進(jìn)行保持,生成不同場景的人物圖像。
同時(shí)對于人物而言,也可以在保留基本特征的條件下進(jìn)行風(fēng)格轉(zhuǎn)換,包括被GPT-4o帶火的吉卜力風(fēng)也能拿捏。
應(yīng)用場景方面,官方給出了虛擬試穿和產(chǎn)品設(shè)計(jì)這兩組示例。
對于UNO的單主體生成能力,團(tuán)隊(duì)使用了DreamBench進(jìn)行了測試,使用了三個(gè)主要指標(biāo)——
DINO分?jǐn)?shù)、CLIP-I分?jǐn)?shù)(這兩個(gè)用于評估主體相似度)和CLIP-T分?jǐn)?shù)(用于評估文本忠實(shí)度)。
多主體生成測試則采用了一個(gè)特別設(shè)計(jì)的測試集——從DreamBench中選取了30種不同的雙主體組合,包括非生物體和生物體的組合。
最終,UNO的測試成績無論在單主體還是多主體任務(wù)中都處于領(lǐng)先水平。
研究團(tuán)隊(duì)還進(jìn)行了用戶研究,邀請了30位評估者(包括領(lǐng)域?qū)<液头菍<遥?00個(gè)圖像組合進(jìn)行評估。
結(jié)果,UNO在所有評估維度上都獲得了較高評分,特別是在主體相似度和文本忠實(shí)度方面的表現(xiàn)最為突出。
此外,團(tuán)隊(duì)還展示了UNO和一些SOTA級模型的效果對比,可以直觀感受一下區(qū)別。
模型-數(shù)據(jù)共同進(jìn)化
UNO采用了這一種“模型-數(shù)據(jù)共同進(jìn)化”的新范式,核心思想是用較弱的模型生成訓(xùn)練數(shù)據(jù),訓(xùn)練更強(qiáng)的模型。
在模型架構(gòu)方面,UNO以開源模型FLUX.1 dev為基礎(chǔ),繼承了其文生圖基礎(chǔ)能力和多模態(tài)注意力機(jī)制,采用了通用定制化模型框架。
具體來說,該框架采用漸進(jìn)式跨模態(tài)對齊策略,將訓(xùn)練過程分為兩個(gè)連續(xù)階段——
- 首先使用單主體數(shù)據(jù)對預(yù)訓(xùn)練的文生圖(T2I)模型進(jìn)行微調(diào),使其獲得基本的主體到圖像轉(zhuǎn)換(S2I)能力;
- 隨后引入多主體數(shù)據(jù)繼續(xù)訓(xùn)練,增強(qiáng)模型處理復(fù)雜場景的能力。
此外研究團(tuán)隊(duì)提出了通用旋轉(zhuǎn)位置嵌入(UnoPE)技術(shù),通過為文本和圖像標(biāo)記分配特定的位置索引,來調(diào)控多模態(tài)標(biāo)記之間的交互。
UnoPE采用從噪聲圖像標(biāo)記最大維度開始的對角線位置編碼方式,并通過調(diào)整位置索引范圍來防止生成圖像過度依賴參考圖像的空間結(jié)構(gòu),有效緩解了在擴(kuò)展視覺主體控制時(shí)容易出現(xiàn)的屬性混淆問題。
數(shù)據(jù)方面,團(tuán)隊(duì)利用Diffusion Transformer固有的上下文生成能力構(gòu)建了數(shù)據(jù)合成框架。
團(tuán)隊(duì)首先構(gòu)建了一個(gè)包含365個(gè)頂層類別的分類樹,這些類別來自O(shè)bject365數(shù)據(jù)集。
在每個(gè)類別下,還包含了更細(xì)粒度的分類,涵蓋年齡、職業(yè)和著裝風(fēng)格等維度。
然后利用大模型在每個(gè)類別中生成豐富多樣的主體和場景描述,這些輸出與預(yù)定義的文本模板結(jié)合,可以為文生圖模型生成數(shù)百萬個(gè)文本提示。
最終,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)漸進(jìn)式的合成管道,從單主體生成開始,逐步過渡到多主體上下文生成。
來自字節(jié)智能創(chuàng)作團(tuán)隊(duì)
論文顯示,UNO的作者字節(jié)智能創(chuàng)作團(tuán)隊(duì)。
據(jù)介紹,該團(tuán)隊(duì)是字節(jié)的AI&多媒體技術(shù)中臺,研究方向包括計(jì)算機(jī)視覺、音視頻編輯、特效處理等技術(shù)。
之前字節(jié)提出的用于提升圖像生成模型“美感”的VMix,也是來自智能創(chuàng)作團(tuán)隊(duì),并且作者與這次的UNO基本相同。
本次UNO的項(xiàng)目負(fù)責(zé)人是Fei Ding,是Vmix的通訊作者,之前還參與過Realcustom++、Dreamtuner等項(xiàng)目的工作。
UNO的第一作者Shaojin Wu、通訊作者黃夢琪,之前也都參與過Vmix。
黃夢琪目前是中科大博士在讀,2023年起至今一直在字節(jié)實(shí)習(xí),預(yù)計(jì)今年畢業(yè),導(dǎo)師是毛震東教授。
另外,字節(jié)招聘網(wǎng)站顯示,智能創(chuàng)作團(tuán)隊(duì)目前正在招聘AIGC技術(shù)專家、多模態(tài)算法專家等崗位。
論文地址:
https://arxiv.org/abs/2504.02160
項(xiàng)目主頁:
https://bytedance.github.io/UNO/