自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tr id="htlgd"></tr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

驚艷！單模型統(tǒng)一多圖個(gè)性化生成！字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源！

發(fā)布于 2025-4-11 10:10

瀏覽

0收藏

驚艷！單模型統(tǒng)一多圖個(gè)性化生成！字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源！-AI.x社區(qū)

文章鏈接：https://huggingface.co/papers/2504.02160
arXiv鏈接：https://arxiv.org/pdf/2504.02160
代碼鏈接：https://github.com/bytedance/UNO
項(xiàng)目網(wǎng)頁(yè)：https://bytedance.github.io/UNO/

驚艷！單模型統(tǒng)一多圖個(gè)性化生成！字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源！-AI.x社區(qū)

亮點(diǎn)直擊

提出了模型-數(shù)據(jù)協(xié)同進(jìn)化范式，突破了傳統(tǒng)定制化圖像生成中數(shù)據(jù)瓶頸的限制。
開(kāi)發(fā)了漸進(jìn)式數(shù)據(jù)生成框架和通用定制化模型UNO，實(shí)現(xiàn)了從單主體到多主體的高質(zhì)量圖像生成。
在多個(gè)任務(wù)中取得了卓越的性能，包括單主體和多主體驅(qū)動(dòng)的圖像生成，并且能泛化到id、tryon、style等場(chǎng)景

驚艷！單模型統(tǒng)一多圖個(gè)性化生成！字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源！-AI.x社區(qū)

總結(jié)速覽

解決的問(wèn)題

數(shù)據(jù)瓶頸：高質(zhì)量、多視角主體一致的配對(duì)數(shù)據(jù)難以獲取，限制了模型的可擴(kuò)展性。
主體擴(kuò)展性：現(xiàn)有方法主要針對(duì)單主體生成，難以處理復(fù)雜且種類(lèi)豐富的多主體場(chǎng)景。

提出的方案

提出了模型-數(shù)據(jù)協(xié)同進(jìn)化范式，通過(guò)Text-to-Image(T2I) 模型生成更好的單主體定制化數(shù)據(jù)，進(jìn)而訓(xùn)練更強(qiáng)大的Subject-to-Image（S2I）模型用于生成質(zhì)量高、種類(lèi)豐富的多主體數(shù)據(jù)。
開(kāi)發(fā)了漸進(jìn)式數(shù)據(jù)生成框架和通用定制化模型UNO，實(shí)現(xiàn)從單主體到多主體的高質(zhì)量圖像生成。

應(yīng)用的技術(shù)

基于當(dāng)前最先進(jìn)的T2I模型FLUX，改進(jìn)其成支持多條件生成的S2I模型。
漸進(jìn)式跨模態(tài)對(duì)齊：通過(guò)逐步訓(xùn)練實(shí)現(xiàn)多圖像條件的處理。
通用旋轉(zhuǎn)位置嵌入（UnoPE）：解決多圖像條件下的屬性混淆問(wèn)題。

達(dá)到的效果

在DreamBench和多主體生成基準(zhǔn)測(cè)試中，UNO在一致性和文本可控性方面均取得了最佳性能。
顯著減少了“復(fù)制-粘貼”現(xiàn)象，提高了生成圖像的質(zhì)量和可控性。
極佳的泛化能力，能覆蓋換裝、人物保持、風(fēng)格化等個(gè)性化生成

驚艷！單模型統(tǒng)一多圖個(gè)性化生成！字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源！-AI.x社區(qū)

方法

上下文數(shù)據(jù)生成框架

驚艷！單模型統(tǒng)一多圖個(gè)性化生成！字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源！-AI.x社區(qū)

單主體配對(duì)數(shù)據(jù)生成：通過(guò)預(yù)定義的文本模板和LLM構(gòu)建分類(lèi)樹(shù)，生成多樣化主題和場(chǎng)景描述，利用DiT上下文生成能力直接生成主題一致的圖像對(duì)，構(gòu)建VLM打分器進(jìn)行過(guò)濾
多主體配對(duì)數(shù)據(jù)生成：基于單主體數(shù)據(jù)訓(xùn)練的Subject-to-Image(S2I)模型，用開(kāi)集檢測(cè)得到另一新主體反向生成定制化數(shù)據(jù)，從而構(gòu)建多主體一致的圖像對(duì)，避免“復(fù)制-粘貼”問(wèn)題。

驚艷！單模型統(tǒng)一多圖個(gè)性化生成！字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源！-AI.x社區(qū)

同時(shí)，作者在論文中也做了充足實(shí)驗(yàn)說(shuō)明了層級(jí)數(shù)據(jù)過(guò)濾的重要性和有效性。

漸進(jìn)式訓(xùn)練策略

驚艷！單模型統(tǒng)一多圖個(gè)性化生成！字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源！-AI.x社區(qū)

DiT模型最初是為純T2I設(shè)計(jì)的，其輸入是文本提示和噪聲圖像的嵌入。然而，當(dāng)嘗試引入多圖像條件（如參考圖像）時(shí)，直接輸入多圖像可能導(dǎo)致模型訓(xùn)練不穩(wěn)定或性能下降。這是因?yàn)槎鄨D像條件的引入會(huì)改變模型的收斂分布，導(dǎo)致模型難以適應(yīng)復(fù)雜的輸入。為了克服這一問(wèn)題，論文提出了漸進(jìn)式跨模態(tài)對(duì)齊的訓(xùn)練方法，分為兩個(gè)階段：

單主題訓(xùn)練階段（Stage I）

目標(biāo)：讓模型學(xué)會(huì)處理單圖像條件的輸入，生成與參考圖像一致的結(jié)果。
方法：使用單主體數(shù)據(jù)對(duì)對(duì)預(yù)訓(xùn)練的T2I模型進(jìn)行微調(diào)。輸入包括文本提示、噪聲圖像嵌入和單一參考圖像嵌入。
效果：通過(guò)這一階段，模型能夠理解如何將參考圖像的信息融入生成過(guò)程中，生成與參考圖像一致的單主體圖像。

驚艷！單模型統(tǒng)一多圖個(gè)性化生成！字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源！-AI.x社區(qū)

驚艷！單模型統(tǒng)一多圖個(gè)性化生成！字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源！-AI.x社區(qū)

多主題訓(xùn)練階段（Stage II）

目標(biāo)：讓模型學(xué)會(huì)處理多圖像條件的輸入，生成與多個(gè)參考圖像一致的結(jié)果。
方法：在單主題訓(xùn)練的基礎(chǔ)上，進(jìn)一步使用多主體數(shù)據(jù)對(duì)進(jìn)行訓(xùn)練。輸入包括文本提示、噪聲圖像嵌入和多個(gè)參考圖像嵌入。
效果：通過(guò)這一階段，模型能夠處理多個(gè)參考圖像的輸入，并生成與所有參考圖像一致的多主題圖像。

驚艷！單模型統(tǒng)一多圖個(gè)性化生成！字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源！-AI.x社區(qū)

論文通過(guò)從簡(jiǎn)單到復(fù)雜的訓(xùn)練范式，讓模型能夠逐步適應(yīng)多圖像條件的輸入，避免直接引入多圖像條件導(dǎo)致的訓(xùn)練不穩(wěn)定。

通用旋轉(zhuǎn)位置嵌入(UnoPE)

在多圖像條件下，DiT需要處理多個(gè)參考圖像的嵌入。然而，直接使用原始的位置索引可能導(dǎo)致以下問(wèn)題：一是空間結(jié)構(gòu)依賴：模型可能過(guò)度依賴參考圖像的空間結(jié)構(gòu)（如位置和布局），而忽略文本提示中提供的語(yǔ)義信息；一是屬性混淆：不同參考圖像之間可能存在語(yǔ)義差距，導(dǎo)致模型難以準(zhǔn)確生成目標(biāo)圖像。

驚艷！單模型統(tǒng)一多圖個(gè)性化生成！字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源！-AI.x社區(qū)

論文提出了通用旋轉(zhuǎn)位置嵌入（UnoPE），通過(guò)調(diào)整位置索引的方式，使模型能夠更好地關(guān)注文本特征，而不是簡(jiǎn)單地復(fù)制參考圖像的空間結(jié)構(gòu)。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)設(shè)置

數(shù)據(jù)生成：通過(guò)漸進(jìn)式數(shù)據(jù)生成框架生成了230k單主體數(shù)據(jù)對(duì)和15k多主體數(shù)據(jù)對(duì)。
訓(xùn)練細(xì)節(jié)：基于FLUX.1預(yù)訓(xùn)練模型，使用LoRA秩為512進(jìn)行訓(xùn)練，總批次為16，學(xué)習(xí)率為1e-5。
評(píng)估指標(biāo)：使用DINO和CLIP-I分?jǐn)?shù)評(píng)估主體一致性，CLIP-T分?jǐn)?shù)評(píng)估文本遵循度。

結(jié)果

定性指標(biāo)：UNO在Dreambench單主體和多主體生成中均能保持主體細(xì)節(jié)和文本指令的一致性，顯著優(yōu)于其他方法，幾乎做到了對(duì)參考圖細(xì)節(jié)的完美保留。

驚艷！單模型統(tǒng)一多圖個(gè)性化生成！字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源！-AI.x社區(qū)

驚艷！單模型統(tǒng)一多圖個(gè)性化生成！字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源！-AI.x社區(qū)

定量指標(biāo)：在DreamBench數(shù)據(jù)集上，UNO在單主題生成中取得了最高的DINO（0.760）和CLIP-I（0.835）分?jǐn)?shù)；在多主題生成中，DINO和CLIP-I分?jǐn)?shù)分別為0.542和0.733，成為目前一致性生成的SOTA。

驚艷！單模型統(tǒng)一多圖個(gè)性化生成！字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源！-AI.x社區(qū)

消融實(shí)驗(yàn)：論文充分驗(yàn)證了漸進(jìn)式跨模態(tài)對(duì)齊和UnoPE與其它變體相比的有效性。移除這些模塊后，性能顯著下降，證明了它們對(duì)模型性能的關(guān)鍵作用。

驚艷！單模型統(tǒng)一多圖個(gè)性化生成！字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源！-AI.x社區(qū)

應(yīng)用案例

UNO還展示了很強(qiáng)的泛化能力，除了應(yīng)對(duì)更為復(fù)雜的多圖主體保持場(chǎng)景外，還能涵蓋以往身份保持、換裝、風(fēng)格化等任務(wù)，從而為未來(lái)工作提供啟發(fā)。

驚艷！單模型統(tǒng)一多圖個(gè)性化生成！字節(jié)重磅開(kāi)源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開(kāi)源！-AI.x社區(qū)

結(jié)論

論文提出的UNO模型通過(guò)模型-數(shù)據(jù)協(xié)同進(jìn)化范式，突破了數(shù)據(jù)瓶頸，實(shí)現(xiàn)了高質(zhì)量的單主體和多主體定制化圖像生成。實(shí)驗(yàn)結(jié)果表明，UNO在主題相似性和文本可控性方面均達(dá)到了最佳性能，具有廣泛的應(yīng)用潛力，例如虛擬試穿、身份保持和風(fēng)格化生成等。未來(lái)工作將進(jìn)一步擴(kuò)展合成數(shù)據(jù)類(lèi)型，以解鎖UNO的更多潛力。

本文轉(zhuǎn)自AI生成未來(lái) ，作者：AI生成未來(lái)

原文鏈接:??https://mp.weixin.qq.com/s/kz04Sbo35iP7wCRpZ6-RnA??

標(biāo)簽

數(shù)據(jù)

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

熱門(mén)內(nèi)容榜 ? 最近上榜

回復(fù)

相關(guān)推薦

多模態(tài)大模型有了統(tǒng)一分割框架，華科PSALM多任務(wù)登頂，模型代碼全開(kāi)源

輕薄滴假象 ? 2544瀏覽 ? 0回復(fù)
模型權(quán)重、訓(xùn)練代碼等已全部開(kāi)源

輕薄滴假象 ? 3253瀏覽 ? 0回復(fù)
微軟重磅開(kāi)源 GraphRAG：新一代 RAG 技術(shù)來(lái)了！

玄姐聊AGI ? 5449瀏覽 ? 0回復(fù)
「分割一切」進(jìn)化2.0！一鍵跟蹤運(yùn)動(dòng)物體，代碼權(quán)重數(shù)據(jù)全開(kāi)源

angel ? 2043瀏覽 ? 0回復(fù)
統(tǒng)一單ID和多ID個(gè)性化框架！阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法

angel ? 2597瀏覽 ? 0回復(fù)
字節(jié)跳動(dòng)發(fā)布統(tǒng)一多模態(tài)大模型 Show-o!

AI論文解讀 ? 3818瀏覽 ? 0回復(fù)
中山大學(xué)等提出CoRe：任意提示的文本到圖像個(gè)性化生成！

angel ? 2171瀏覽 ? 0回復(fù)
小紅書(shū)開(kāi)源StoryMaker：個(gè)性化圖像生成模型，實(shí)現(xiàn)角色一致性與背景變化的完美結(jié)合

angel ? 6134瀏覽 ? 0回復(fù)
統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!

angel ? 2958瀏覽 ? 0回復(fù)
Janus 統(tǒng)一多模態(tài)理解和生成

kede96 ? 2285瀏覽 ? 0回復(fù)
Emu3: 統(tǒng)一多模態(tài)輸入與生成

kede96 ? 1822瀏覽 ? 0回復(fù)
突破個(gè)性化圖像生成局限！MagicTailor：組件可控個(gè)性化圖像生成創(chuàng)新框架！

angel ? 2565瀏覽 ? 0回復(fù)
自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成！DeepSeek&北大等開(kāi)源JanusFlow

angel ? 2336瀏覽 ? 0回復(fù)
文檔截圖嵌入統(tǒng)一多模態(tài)檢索方法原理

大模型自然語(yǔ)言處理 ? 1855瀏覽 ? 0回復(fù)
賈佳亞團(tuán)隊(duì)新作MagicMirror：生成身份一致且高質(zhì)量個(gè)性化視頻，效果驚艷！

angel ? 2161瀏覽 ? 0回復(fù)
面向統(tǒng)一的單、多主體個(gè)性化文生圖框架！阿里通義發(fā)布AnyStory！

angel ? 1697瀏覽 ? 0回復(fù)
探究PEPNet模型：多任務(wù)多領(lǐng)域推薦的個(gè)性化建模！

南夏的算法驛站 ? 1778瀏覽 ? 0回復(fù)
新加坡國(guó)立開(kāi)源Conceptrol：讓個(gè)性化圖像生成更懂你的文字提示

angel ? 1098瀏覽 ? 0回復(fù)
“谷歌版 MCP”來(lái)了！重磅開(kāi)源 A2A 智能體交互新架構(gòu)

玄姐聊AGI ? 1030瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門(mén)推薦

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布！中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva！ 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣(mài)點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專(zhuān)屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

上一篇：圖像編輯進(jìn)入“精修時(shí)代”！“指哪改哪”！北交&美圖發(fā)布DCEdit：改圖不傷背景的終極方案

下一篇：一張照片，開(kāi)口說(shuō)話！阿里等最新音視頻對(duì)齊技術(shù)FantasyTalking：打造超寫(xiě)實(shí)可控?cái)?shù)字人!

社區(qū)精華內(nèi)容

目錄