你的文生圖模型可以秘密接收多模態(tài)提示了!南洋理工&騰訊最新提出EMMA
文章鏈接:https://arxiv.org/pdf/2406.09162
git鏈接:https://tencentqqgylab.github.io/EMMA
圖像生成的最新進展使得從文本條件創(chuàng)建高質(zhì)量圖像成為可能。然而,當面對多模態(tài)條件(如文本結(jié)合參考外觀)時,現(xiàn)有方法難以有效平衡多種條件,通常表現(xiàn)出對某一種模態(tài)的偏好。為了解決這一挑戰(zhàn),引入了EMMA,這是一種基于最先進的文本到圖像(T2I)擴散模型ELLA構(gòu)建的新型圖像生成模型,能夠接受多模態(tài)提示。EMMA通過一種創(chuàng)新的多模態(tài)特征連接器設(shè)計無縫結(jié)合文本和其他模態(tài)信息,引導(dǎo)圖像生成。該設(shè)計使用了一種特殊的注意機制,有效整合了文本和補充模態(tài)信息。
通過凍結(jié)原T2I擴散模型中的所有參數(shù),只調(diào)整一些附加層,發(fā)現(xiàn)了一個有趣的現(xiàn)象,即預(yù)訓(xùn)練的T2I擴散模型實際上可以接受多模態(tài)提示。這一有趣的特性便于適應(yīng)不同的現(xiàn)有框架,使得EMMA成為一個靈活有效的工具,用于生成個性化和情境感知的圖像甚至視頻。此外,本文引入了一種策略來組合已學(xué)習(xí)的EMMA模塊,以同時生成基于多模態(tài)條件的圖像,消除了需要對混合多模態(tài)提示進行額外訓(xùn)練的需求。大量實驗表明,EMMA在保持生成圖像的高保真度和細節(jié)方面效果顯著,展示了其作為高級多模態(tài)條件圖像生成任務(wù)的強大解決方案的潛力。
主要貢獻如下:
- 多模態(tài)提示的創(chuàng)新集成機制:本文引入了EMMA,這是一種開創(chuàng)性的方式,將多模態(tài)提示的特征融合到圖像生成過程中,同時不影響文本控制。本文的方法顯著增強了圖像生成的靈活性和適用性,能夠?qū)崿F(xiàn)多種模態(tài)之間的協(xié)同交互。這一創(chuàng)新允許在多種輸入條件下生成高質(zhì)量的圖像。
- 模塊化且高效的模型訓(xùn)練:本文的框架便于根據(jù)不同模態(tài)進行模型的模塊化組裝,從而簡化了流程,在引入新條件時無需重新訓(xùn)練。這種高效的訓(xùn)練程序節(jié)省了資源,加快了模型適應(yīng)新任務(wù)的速度。
- 通用兼容性和適應(yīng)性:EMMA作為即插即用模塊,可無需微調(diào)即適用于各種現(xiàn)有和新興的模型,包括各種圖像和視頻生成應(yīng)用。它與Stable Diffusion框架及其他模型的兼容性增強了其在不同領(lǐng)域的實用性。
- 穩(wěn)健的性能和細節(jié)保留:通過實驗,確認了EMMA模型對各種控制信號的穩(wěn)健性,確保在生成圖像時保留文本和視覺細節(jié)。模型的架構(gòu)設(shè)計具有可擴展性和靈活性,能夠適應(yīng)廣泛的條件和應(yīng)用,同時保持高保真度和高質(zhì)量。
方法
模型架構(gòu)
EMMA 的整體流程如下圖2(a)所示。本文的模型條件包括兩個方面。一是文本特征,另一是自定義圖像特征,例如視覺剪輯特征或面部embedding。
在 EMMA 中,通過 ELLA提出的 Perceiver Resampler 塊注入文本特征,如上面圖 2(b) 所示。圖像特征通過新提出的模塊 Assemblable Gated Perceiver Resampler 感知,如圖 2 (c) 所示。
具體來說,將EMMA分為三個主要組件,并詳細描述它們。
文本編碼器:配備了T5以理解豐富的文本內(nèi)容。先前的研究表明,T5 擅長提取文本特征,使其非常適合為下游任務(wù)提供文本特征。
圖像生成器:在圖像生成領(lǐng)域,眾多研究人員和從業(yè)者根據(jù)其具體目標和數(shù)據(jù)類型微調(diào)了各種模型。研究者們致力于使最終網(wǎng)絡(luò)確保特征的泛化,從而最大限度地利用社區(qū)中常見的高質(zhì)量模型。
多模態(tài)特征連接器:網(wǎng)絡(luò)架構(gòu)如上圖2所示。借鑒 Flamingo和 ELLA 的靈感,連接器由兩個交替堆疊的網(wǎng)絡(luò)模塊組成:Perceiver Resampler 和 Assemblable Gated Perceiver Resampler。Perceiver Resampler 主要負責整合文本信息,而 Assemblable Gated Perceiver Resampler 旨在整合其他信息。這些網(wǎng)絡(luò)模塊使用注意力機制將多模態(tài)信息同化為可學(xué)習(xí)的token embedding,然后作為條件提供給 U-net。定義這些模塊如下。連接器包含 K 個可學(xué)習(xí)token,表示為 Latent。時間embeddings、文本特征和附加條件分別表示為 t、T 和 C。
Perceiver Resampler 塊可以分為兩個部分。
這里,TimeAwareAttn 和 TimeAwareFFN 是自定義的注意力和前饋神經(jīng)網(wǎng)絡(luò) (FFN) 模塊,使用 AdaLN 將時間embedding整合到輸入中。ELLA 已經(jīng)證明了這種方法的優(yōu)勢。Assemblable Gated Perceiver Resampler 的公式類似。
在這些方程中,AttnGate 和 FFNGate 是兩組用于調(diào)節(jié)特征整合的門控。它們的定義如下。
這里,λ 是門控比例,一個固定的超參數(shù),A 和 F 是全局門控。Linear(L) 是可分離門控。
多條件圖像生成
開發(fā)文本生成圖像能力。通過 ELLA 的訓(xùn)練范式,開發(fā)了一個具備強大文本生成圖像能力的模型。如圖4 第一行所示,ELLA 可以生成嚴格遵循指令的圖像,這構(gòu)成了 EMMA 多模態(tài)指導(dǎo)的基礎(chǔ)。
選擇性模塊化特征訓(xùn)練。為了增強訓(xùn)練過程的穩(wěn)定性和最終性能,在網(wǎng)絡(luò)架構(gòu)中集成了幾個創(chuàng)新設(shè)計元素。例如,Perceiver Resampler 和 Assemblable Gated Perceiver Resampler 之間的交替結(jié)構(gòu)旨在限制網(wǎng)絡(luò)中間層的特征空間。這可以防止圖像信息傳遞過多的先驗知識,可能會削弱文本的控制力并破壞最終的生成結(jié)果。Assemblable Gated Perceiver Resampler 包含分離的門控,使得可以將額外的特征整合到幾個可訓(xùn)練的embedding中。
多條件圖像生成模塊的組裝。在為每個單獨的條件建立強大模型之后,設(shè)計了一種創(chuàng)新方法,使模型能夠整合現(xiàn)有模塊并生成受多個因素約束的圖像。如圖所示,集成了 Assemblable Gated Perceiver Resampler。無需額外訓(xùn)練,模型可以合成所有輸入條件并生成新穎的輸出。這表明在不依賴預(yù)先存在的訓(xùn)練數(shù)據(jù)集的情況下進行圖像生成的潛力。
這個過程可以用數(shù)學(xué)表達式表示為:
以這種方式,可以在無需進一步訓(xùn)練的情況下,將各種條件應(yīng)用于圖像生成過程。
實驗
定量評估
風格條件生成。根據(jù) IP-Adapter的評估設(shè)置,評估了所有方法在 COCO 驗證集上的 CLIP-T 和 CLIP-I 分數(shù)。驗證集中有 5000 個提示。按照 IP-Adapter的描述,為每個提示生成四張圖像。
肖像生成。研究者們收集了一個肖像數(shù)據(jù)集,并基于 ActivityNet 驗證集構(gòu)建了 20 個人體動作提示。在此基礎(chǔ)上,測試了各種主體驅(qū)動的圖像生成方法的生成能力,并使用 CLIP-T 分數(shù)和 DINO 分數(shù)指標評估了結(jié)果。結(jié)果如下表 2 所示,本文提出的 EMMA 相較于之前的方法獲得了最高分數(shù)。
可分離門控機制。如下表 1 所示,比較了在有和沒有分離門控的風格條件下訓(xùn)練的 EMMA 模型。帶有分離門控的 EMMA 表現(xiàn)更好,這是因為這種設(shè)計對不同的token embedding引入了更細粒度的控制。
如圖 5 所示,在特定條件下,不同的tokens 起到不同的作用。沒有分離門控的情況下,生成的結(jié)果很容易受到不相關(guān)token embeddings的影響。
可視化
不同條件下的肖像創(chuàng)建。展示了各種肖像生成的結(jié)果。如前面圖4 所示,本文的方法在保持關(guān)鍵圖像元素(如衣物)方面表現(xiàn)出色,并且嚴格遵循文本指令。第一行展示了文本生成圖像的輸出,描繪了一位女性在不同場景中從事各種活動。中間行展示了多模態(tài)圖像生成的結(jié)果,附加條件如面部或肖像特征生成了符合給定指令的角色圖像。最后一行展示了復(fù)合條件圖像生成,可以生成既遵循指令又保留一張圖像中的面部特征和另一張圖像中的肖像元素的圖像。
門控值可視化。在本文提出的 EMMA 中,門控設(shè)計是一個關(guān)鍵模塊,允許在模型內(nèi)自由組合。該設(shè)計引入了更多的模型參數(shù),增強了模型的表達能力。此外,研究者們觀察到不同模型中顯著門控值的tokens 索引分布具有獨特的模式。tokens 索引分布的這種獨特模式對于本文方法的適應(yīng)性至關(guān)重要,能夠?qū)崿F(xiàn)靈活和不受限制的模型集成??梢暬Y(jié)果如上面圖 5 所示。
結(jié)論
本文提出了 EMMA,一種多模態(tài)圖像生成模型,具有革新從多種條件生成圖像方式的潛力。通過獨特的多模態(tài)特征連接器集成文本和附加模態(tài),EMMA 在圖像生成的真實度和細節(jié)上達到了現(xiàn)有方法無法匹敵的水平。其模塊化設(shè)計允許輕松適應(yīng)各種框架。此外,EMMA 可以組合現(xiàn)有模塊以同時生成基于多種模態(tài)條件的圖像,消除了額外訓(xùn)練的需要。EMMA 為個性化圖像生成提供了高效且適應(yīng)性強的解決方案。
總之,EMMA 在圖像生成方面的創(chuàng)新方法為平衡多種輸入模態(tài)設(shè)立了新的基準。隨著生成模型領(lǐng)域的不斷發(fā)展,EMMA 有望成為開發(fā)更復(fù)雜和用戶友好技術(shù)的基石,推動 AI 驅(qū)動內(nèi)容創(chuàng)作的下一波創(chuàng)新。
限制。當前版本的 EMMA 只能處理英文提示。未來,研究者們將嘗試在支持多語言提示的擴散模型中實現(xiàn)相同的算法。
本文轉(zhuǎn)自 AI生成未來 ,作者:Yucheng Han等
