挖掘DiT的位置解耦特性,Personalize Anything免訓(xùn)練實(shí)現(xiàn)個(gè)性化圖像生成
本文的主要作者來自北京航空航天大學(xué)、清華大學(xué)和中國(guó)人民大學(xué)。本文的第一作者為清華大學(xué)碩士生封皓然,共同第一作者暨項(xiàng)目負(fù)責(zé)人為北京航空航天大學(xué)碩士生黃澤桓,團(tuán)隊(duì)主要研究方向?yàn)橛?jì)算機(jī)視覺與生成式人工智能。本文的通訊作者為北京航空航天大學(xué)副教授盛律。
個(gè)性化圖像生成是圖像生成領(lǐng)域的一項(xiàng)重要技術(shù),正以前所未有的速度吸引著廣泛關(guān)注。它能夠根據(jù)用戶提供的獨(dú)特概念,精準(zhǔn)合成定制化的視覺內(nèi)容,滿足日益增長(zhǎng)的個(gè)性化需求,并同時(shí)支持對(duì)生成結(jié)果進(jìn)行細(xì)粒度的語義控制與編輯,使其能夠精確實(shí)現(xiàn)心中的創(chuàng)意愿景。隨著圖像生成模型的持續(xù)突破,這項(xiàng)技術(shù)已在廣告營(yíng)銷、角色設(shè)計(jì)、虛擬時(shí)尚等多個(gè)領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力和商業(yè)價(jià)值,正在深刻地改變著我們創(chuàng)造和消費(fèi)視覺內(nèi)容的方式。
然而當(dāng)人們對(duì)個(gè)性化圖像生成的期望不斷上升時(shí),傳統(tǒng)的個(gè)性化圖像生成方法面臨著以下幾個(gè)挑戰(zhàn):①細(xì)節(jié)還原瓶頸(如何更精準(zhǔn)地還原物體細(xì)節(jié),尤其是在多物體的情況下)② 交互控制難題(如何在進(jìn)行個(gè)性化生成的同時(shí),支持對(duì)物體位置等空間因素的精準(zhǔn)控制)③ 應(yīng)用拓展受限(如何將個(gè)性化和編輯統(tǒng)一在同一框架,以滿足更多應(yīng)用需求)。這些挑戰(zhàn)嚴(yán)重制約著個(gè)性化圖像生成技術(shù)的進(jìn)一步突破,亟需構(gòu)建更高效的生成框架。
因此,清華大學(xué)、北京航空航天大學(xué)團(tuán)隊(duì)推出了全新的架構(gòu)設(shè)計(jì) ——Personalize Anything,它能夠在無需訓(xùn)練的情況下,完成概念主體的高度細(xì)節(jié)還原,支持用戶對(duì)物體進(jìn)行細(xì)粒度的位置操控,并能夠擴(kuò)展至多個(gè)應(yīng)用中,為個(gè)性化圖像生成引入了一個(gè)新范式。
總結(jié)而言,Personalize Anything 的特點(diǎn)如下:
- 高效的免訓(xùn)練框架:無需訓(xùn)練,具備較高的計(jì)算效率,僅需一次反演(inversion)和一次推理過程
- 高保真度與可控性:在保持高精度細(xì)節(jié)的同時(shí)兼顧了物體姿態(tài)的多樣性,并支持位置控制
- 高擴(kuò)展性:同時(shí)支持多種任務(wù),包括多物體處理、物體與場(chǎng)景的整合、inpainting 和 outpainting 等
- 論文標(biāo)題:Personalize Anything for Free with Diffusion Transformer
- 論文鏈接:https://arxiv.org/abs/2503.12590
- 項(xiàng)目主頁:https://fenghora.github.io/Personalize-Anything-Page/
- 代碼倉(cāng)庫(kù):https://github.com/fenghora/personalize-anything
效果展示:無需訓(xùn)練,支持個(gè)性化、多物體組合、編輯
Personalize Anything 能夠在多種任務(wù)上表現(xiàn)出色,可以對(duì)多組物體與場(chǎng)景進(jìn)行組合,并同時(shí)自由控制主體位置,這是以往個(gè)性化圖像生成模型難以做到的。
下面圖像中依次展示了 Personalize Anything 在布局引導(dǎo)生成、inpainting、outpainting 三種任務(wù)上的表現(xiàn)??梢钥吹?,Personalize Anything 在多種任務(wù)上都能夠生成貼合文本的高質(zhì)量圖像。
技術(shù)突破:從 DiT 架構(gòu)的新發(fā)現(xiàn)到個(gè)性化任意內(nèi)容
個(gè)性化圖像生成的傳統(tǒng)方法通常需要對(duì)定制概念進(jìn)行微調(diào),或者在大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,這不僅消耗大量計(jì)算資源,還影響模型的泛化能力。最近,無需訓(xùn)練的方法嘗試通過注意力共享機(jī)制來避免這些問題,但這些方法難以保持概念的一致性。此外,由于這些方法主要針對(duì)傳統(tǒng)的 UNet 架構(gòu)設(shè)計(jì),無法應(yīng)用于最新的 DiT 架構(gòu)模型,導(dǎo)致它們無法應(yīng)用在更大規(guī)模和更好效果的圖像生成模型上。
注意力共享機(jī)制不適用于 DiT 架構(gòu)
在了解 Personalize Anything 技術(shù)細(xì)節(jié)前,先來看看為什么傳統(tǒng)無需訓(xùn)練的方法不能夠應(yīng)用在 DiT 架構(gòu)的圖像生成模型上。
如上文所述,傳統(tǒng)無需訓(xùn)練的方法多通過注意力共享機(jī)制,也就是在運(yùn)算自注意力時(shí),將概念圖像特征直接與生成圖像特征進(jìn)行拼接,但是經(jīng)由團(tuán)隊(duì)實(shí)驗(yàn)發(fā)現(xiàn),對(duì)于 DiT 架構(gòu)而言,由于位置編碼的影響,當(dāng)去噪圖像和參考圖像共用同一套位置編碼時(shí),會(huì)導(dǎo)致過度關(guān)注,從而在生成的圖像中產(chǎn)生重影(圖 a);當(dāng)調(diào)整參考圖像的位置編碼避免沖突時(shí),生成圖像的注意力幾乎不出現(xiàn)在參考圖像中,導(dǎo)致主體一致性較弱(如圖 b 和圖 c),這限制了傳統(tǒng)方法在 DiT 架構(gòu)上的應(yīng)用。
通過上述實(shí)驗(yàn)發(fā)現(xiàn),DiT 中顯式編碼的位置信息對(duì)其注意力機(jī)制具有強(qiáng)烈影響 —— 這與 U-Net 隱式處理位置的方式存在根本差異。這使得生成的圖像難以在傳統(tǒng)的注意力共享中正確地關(guān)注參考對(duì)象的標(biāo)記。
DiT 架構(gòu)的新啟發(fā):標(biāo)記替換引發(fā)主體重建
基于對(duì) DiT 架構(gòu)顯式位置編碼的認(rèn)識(shí),團(tuán)隊(duì)繼續(xù)對(duì) DiT 的特征表示進(jìn)行了探索。團(tuán)隊(duì)發(fā)現(xiàn),將參考圖像未帶位置編碼的標(biāo)記替換進(jìn)去噪圖像的指定位置,能夠重建出良好的主體圖像。而傳統(tǒng) Unet 架構(gòu)所具有的卷積操作會(huì)導(dǎo)致位置編碼與圖像特征混雜在一起,導(dǎo)致在進(jìn)行特征替換時(shí)影響最后的圖像質(zhì)量。
這一發(fā)現(xiàn)使團(tuán)隊(duì)意識(shí)到,簡(jiǎn)單但有效的特征替換,對(duì)于 DiT 架構(gòu)而言是一個(gè)可行的個(gè)性化圖像生成方法。
定制任意內(nèi)容:時(shí)間步適應(yīng)替換策略與特征擾動(dòng)
基于上述發(fā)現(xiàn),團(tuán)隊(duì)將特征替換引入個(gè)性化圖像生成方法中,并創(chuàng)新地提出了時(shí)間步適應(yīng)標(biāo)記替換機(jī)制 (Timestep-adaptive Token Replacement) 。
在整個(gè)流程中,首先對(duì)參考圖像進(jìn)行反演,并通過 mask 獲取參考圖像未帶位置編碼的標(biāo)記。在去噪過程的早期階段,為了保留物體特征細(xì)節(jié),將參考圖像主體的標(biāo)記直接替換進(jìn)生成圖像中。而在后期,則轉(zhuǎn)為傳統(tǒng)的注意力共享機(jī)制。這種時(shí)間適應(yīng)特征替換機(jī)制能夠增圖像生成后概念主體的多樣性,同時(shí)減少生成圖像的割裂感。
為了進(jìn)一步保證概念主體姿態(tài)的多樣性,團(tuán)隊(duì)又額外提出了特征擾動(dòng),旨在通過對(duì)概念圖像特征進(jìn)行重排,或者調(diào)整 mask,來控制特征替換時(shí)的概念圖像特征代表的物體姿態(tài)等,從而為生成的圖像引入多樣性。
更多應(yīng)用:無縫擴(kuò)展至布局引導(dǎo)、多物體組合、編輯等
Personalize Anything 除了在核心任務(wù)上表現(xiàn)出色,還具有強(qiáng)大的擴(kuò)展能力,可以應(yīng)用于更復(fù)雜的實(shí)際場(chǎng)景。首先,可以通過自由選擇特征注入的位置,來實(shí)現(xiàn)位置引導(dǎo)的生成;其次,框架支持對(duì)多物體進(jìn)行自由組合,采取順序注入的方式,支持物體間層級(jí)關(guān)系的控制;并且 Personalize Anything 支持用戶將將圖像視為整體,允許用戶保留部分圖像內(nèi)容,同時(shí)對(duì)另一部分進(jìn)行可控編輯。這種靈活的可擴(kuò)展性為未來的研究和應(yīng)用開辟了更為廣闊的前景。
卓越性能:在保真度和多功能性等多個(gè)維度上表現(xiàn)突出
團(tuán)隊(duì)從單物體定制,多物體組合,物體 - 場(chǎng)景組合這三個(gè)任務(wù)入手,與眾多優(yōu)秀的開源模型進(jìn)行定性定量的對(duì)比。可以看到 Personalize Anything 的結(jié)果基本都優(yōu)于現(xiàn)有方法,并在后續(xù)的人類偏好測(cè)試中取得了顯著優(yōu)勢(shì)。
單物體個(gè)性化生成
多物體組合生成
物體 - 場(chǎng)景組合
未來展望
Personalize Anything 研究團(tuán)隊(duì)揭示了 DiT 中位置解耦表示的性質(zhì),為免訓(xùn)練的圖像空間操縱、個(gè)性化生成奠定基礎(chǔ)。團(tuán)隊(duì)期待 DiT 的幾何編程原理能夠進(jìn)一步拓展到視頻、3D 生成等領(lǐng)域,實(shí)現(xiàn)更復(fù)雜、更精細(xì)的場(chǎng)景構(gòu)建與編輯。希望通過深入研究和廣泛應(yīng)用,讓這一思路激發(fā)更多可控生成的研究,推動(dòng) AI 在創(chuàng)意內(nèi)容生成、虛擬現(xiàn)實(shí)、數(shù)字孿生等領(lǐng)域的廣泛應(yīng)用。