自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

多模態(tài)生成框架新SOTA：文本+空間+圖像隨意組合，20W+數據開源，復旦騰訊優(yōu)圖出品

2025-04-17 02:55:00

團隊提出了SubjectSpatial200K數據集，以彌補當前缺少用于訓練和測試多條件生成模型的公開數據集的不足。團隊相信，該研究將推動可控生成領域的發(fā)展。

能處理任意條件組合的新生成框架來了！

復旦大學、騰訊優(yōu)圖實驗室等機構的研究人員提出UniCombine，一種基于DiT的多條件可控生成框架，能夠處理包括但不限于文本提示、空間映射和主體圖像在內的任意控制條件的任意組合，并保持高度的一致性和出色的和諧性。

具體效果be like：

圖片

據了解，現有的多條件可控生成框架或是只能處理單一種類的多個條件，或是只適用于某種特定的多類別組合，從而普遍缺乏通用性的多類別+多條件的組合式生成能力。

而在UniCombine這項工作中，團隊引入了一種新的Conditional MMDiT注意力機制，并結合可訓練的LoRA模塊，從而同時提供了training-free和training-based兩種版本。

此外，團隊構建并開源了首個針對多條件組合式生成任務設計的數據集SubjectSpatial200K，其中涵蓋了subject-driven和spatially-aligned兩大類控制條件。

UniCombine在4項不同的多條件可控生成任務上均達到SOTA，證明了新方法具有卓越的框架通用性和出色的條件一致性。

UniCombine方法

UniCombine框架圖如下：

圖片

(a) 整體框架。團隊將基于MMDiT的擴散模型視為由文本分支和去噪分支組成。在此基礎上，UniCombine引入了多個條件分支來處理輸入條件。

(b) UniCombine的單條件設置。該設置等價于OminiControl，即在單條件設置下，OminiControl是UniCombine框架的特例。

(c) UniCombine的多條件設置。團隊提出的LoRA Switching模塊可根據條件類型自適應激活去噪分支權重上的預訓練Condition-LoRA模塊。此外，團隊引入了Conditional MMDiT Attention機制，以替換原始MMDiT Attention 機制，從而處理統一的多條件輸入序列。是否加載可選的Denoising-LoRA模塊是無訓練版本和基于訓練版本的區(qū)別。

SubjectSpatial200K數據集

圖片

團隊的SubjectSpatial200K數據集旨在填補當前多條件生成任務中缺少公開可用數據集的空白?，F有數據集未能同時包含主體驅動和空間對齊的標注。

最近，Subjects200K數據集提供了一個面向主體驅動生成的公開數據集。

在此基礎上，團隊構建了SubjectSpatial200K數據集，這是一個高質量的統一數據集，專為訓練和測試多條件可控生成模型設計。該數據集包含全面的標注，包括豐富的Subject Grounding Annotation和Spatial Map Annotation。數據集的構建流程見圖。

實驗結果

（1）對比實驗

圖片

（2）消融實驗：CMMDiT與MMDiT

圖片

（3）消融實驗：Denoising LoRA與Text-LoRA

圖片

（4）消融實驗：DSB+SSB聯合訓練與DSB單獨訓練

圖片

（5）算力開銷分析

整體而言，研究人員提出了UniCombine，這是一個基于DiT的多條件可控生成框架，能夠處理任意條件組合，包括但不限于文本提示、空間映射和主體圖像。

在主體插入、主體-空間以及多空間等條件生成任務上的大量實驗表明，無論是無訓練還是基于訓練的版本，UniCombine都達到了最先進的性能。

此外，團隊提出了SubjectSpatial200K數據集，以彌補當前缺少用于訓練和測試多條件生成模型的公開數據集的不足。團隊相信，該研究將推動可控生成領域的發(fā)展。

論文鏈接：https://arxiv.org/pdf/2503.09277
開源代碼：https://github.com/Xuan-World/UniCombine

責任編輯：武曉燕來源：量子位

SOTA 圖像隨意組合

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<del id="0pvzk"><abbr id="0pvzk"></abbr></del>

<tt id="0pvzk"></tt>