多模態(tài)生成框架新SOTA:文本+空間+圖像隨意組合,20W+數據開源,復旦騰訊優(yōu)圖出品
能處理任意條件組合的新生成框架來了!
復旦大學、騰訊優(yōu)圖實驗室等機構的研究人員提出UniCombine,一種基于DiT的多條件可控生成框架,能夠處理包括但不限于文本提示、空間映射和主體圖像在內的任意控制條件的任意組合,并保持高度的一致性和出色的和諧性。
具體效果be like:
圖片
據了解,現有的多條件可控生成框架或是只能處理單一種類的多個條件,或是只適用于某種特定的多類別組合,從而普遍缺乏通用性的多類別+多條件的組合式生成能力。
而在UniCombine這項工作中,團隊引入了一種新的Conditional MMDiT注意力機制,并結合可訓練的LoRA模塊,從而同時提供了training-free和training-based兩種版本。
此外,團隊構建并開源了首個針對多條件組合式生成任務設計的數據集SubjectSpatial200K,其中涵蓋了subject-driven和spatially-aligned兩大類控制條件。
UniCombine在4項不同的多條件可控生成任務上均達到SOTA,證明了新方法具有卓越的框架通用性和出色的條件一致性。
UniCombine方法
UniCombine框架圖如下:
圖片
(a) 整體框架。團隊將基于MMDiT的擴散模型視為由文本分支和去噪分支組成。在此基礎上,UniCombine引入了多個條件分支來處理輸入條件。
(b) UniCombine的單條件設置。該設置等價于OminiControl,即在單條件設置下,OminiControl是UniCombine框架的特例。
(c) UniCombine的多條件設置。團隊提出的LoRA Switching模塊可根據條件類型自適應激活去噪分支權重上的預訓練Condition-LoRA模塊。此外,團隊引入了Conditional MMDiT Attention機制,以替換原始MMDiT Attention 機制,從而處理統一的多條件輸入序列。是否加載可選的Denoising-LoRA模塊是無訓練版本和基于訓練版本的區(qū)別。
SubjectSpatial200K數據集
圖片
團隊的SubjectSpatial200K數據集旨在填補當前多條件生成任務中缺少公開可用數據集的空白?,F有數據集未能同時包含主體驅動和空間對齊的標注。
最近,Subjects200K數據集提供了一個面向主體驅動生成的公開數據集。
在此基礎上,團隊構建了SubjectSpatial200K數據集,這是一個高質量的統一數據集,專為訓練和測試多條件可控生成模型設計。該數據集包含全面的標注,包括豐富的Subject Grounding Annotation和Spatial Map Annotation。數據集的構建流程見圖。
實驗結果
(1)對比實驗
圖片
(2)消融實驗:CMMDiT與MMDiT
圖片
(3)消融實驗:Denoising LoRA與Text-LoRA
圖片
(4)消融實驗:DSB+SSB聯合訓練與DSB單獨訓練
圖片
(5)算力開銷分析
整體而言,研究人員提出了UniCombine,這是一個基于DiT的多條件可控生成框架,能夠處理任意條件組合,包括但不限于文本提示、空間映射和主體圖像。
在主體插入、主體-空間以及多空間等條件生成任務上的大量實驗表明,無論是無訓練還是基于訓練的版本,UniCombine都達到了最先進的性能。
此外,團隊提出了SubjectSpatial200K數據集,以彌補當前缺少用于訓練和測試多條件生成模型的公開數據集的不足。團隊相信,該研究將推動可控生成領域的發(fā)展。
論文鏈接:https://arxiv.org/pdf/2503.09277
開源代碼:https://github.com/Xuan-World/UniCombine