可控圖像生成最新綜述!北郵開(kāi)源20頁(yè)249篇文獻(xiàn),包攬Text-to-Image Diffusion領(lǐng)域各種「條件」
在視覺(jué)生成領(lǐng)域迅速發(fā)展的過(guò)程中,擴(kuò)散模型已經(jīng)徹底改變了這一領(lǐng)域的格局,通過(guò)其令人印象深刻的文本引導(dǎo)生成功能標(biāo)志著能力方面的重大轉(zhuǎn)變。
然而,僅依賴(lài)文本來(lái)調(diào)節(jié)這些模型并不能完全滿(mǎn)足不同應(yīng)用和場(chǎng)景的多樣化和復(fù)雜需求。
鑒于這種不足,許多研究旨在控制預(yù)訓(xùn)練文本到圖像(T2I)模型以支持新條件。
在此綜述中,來(lái)自北京郵電大學(xué)的研究人員對(duì)關(guān)于具有 T2I 擴(kuò)散模型可控性生成的文獻(xiàn)進(jìn)行了徹底審查,涵蓋了該領(lǐng)域內(nèi)理論基礎(chǔ)和實(shí)際進(jìn)展。
論文:https://arxiv.org/abs/2403.04279代碼:https://github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models
我們的審查從簡(jiǎn)要介紹去噪擴(kuò)散概率模型(DDPMs)和廣泛使用的 T2I 擴(kuò)散模型基礎(chǔ)開(kāi)始。
然后我們揭示了擴(kuò)散模型的控制機(jī)制,并從理論上分析如何將新條件引入去噪過(guò)程以進(jìn)行有條件生成。
此外,我們提供了對(duì)該領(lǐng)域研究情況詳盡概述,并根據(jù)條件角度將其組織為不同類(lèi)別:具有特定條件生成、具有多個(gè)條件生成以及通用可控性生成。
圖 1 利用T2I擴(kuò)散模型可控生成示意圖。在文本條件的基礎(chǔ)上,加入「身份」條件來(lái)控制輸出的結(jié)果。
分類(lèi)體系
利用文本擴(kuò)散模型進(jìn)行條件生成的任務(wù)代表了一個(gè)多方面和復(fù)雜的領(lǐng)域。從條件角度來(lái)看,我們將這個(gè)任務(wù)分為三個(gè)子任務(wù)(參見(jiàn)圖2)。
圖 2 可控生成的分類(lèi)。從條件角度來(lái)看,我們將可控生成方法分為三個(gè)子任務(wù),包括具有特定條件的生成、具有多個(gè)條件的生成和通用可控生成。
大多數(shù)研究致力于如何在特定條件下生成圖像,例如基于圖像引導(dǎo)的生成和草圖到圖像的生成。
為了揭示這些方法的理論和特征,我們根據(jù)它們的條件類(lèi)型進(jìn)一步對(duì)其進(jìn)行分類(lèi)。
1. 利用特定條件生成:指引入了特定類(lèi)型條件的方法,既包括定制的條件(Personalization, e.g., DreamBooth, Textual Inversion),也包含比較直接的條件,例如ControlNet系列、生理信號(hào)-to-Image
2. 多條件生成:利用多個(gè)條件進(jìn)行生成,對(duì)這一任務(wù)我們?cè)诩夹g(shù)的角度對(duì)其進(jìn)行細(xì)分。
3. 統(tǒng)一可控生成:這個(gè)任務(wù)旨在能夠利用任意條件(甚至任意數(shù)量)進(jìn)行生成。
如何在T2I擴(kuò)散模型中引入新的條件
細(xì)節(jié)請(qǐng)參考論文原文,下面對(duì)這些方法機(jī)理進(jìn)行簡(jiǎn)要介紹。
條件得分預(yù)測(cè)(Conditional Score Prediction)
在T2I擴(kuò)散模型中,利用可訓(xùn)練模型(例如UNet)來(lái)預(yù)測(cè)去噪過(guò)程中的概率得分(即噪聲)是一種基本且有效的方法。
在基于條件得分預(yù)測(cè)方法中,新穎條件會(huì)作為預(yù)測(cè)模型的輸入,來(lái)直接預(yù)測(cè)新的得分。
其可劃分三種引入新條件的方法:
1. 基于模型的條件得分預(yù)測(cè):這類(lèi)方法會(huì)引入一個(gè)用來(lái)編碼新穎條件的模型,并將編碼特征作為UNet的輸入(如作用在cross-attention層),來(lái)預(yù)測(cè)新穎條件下的得分結(jié)果;
2. 基于微調(diào)的條件得分預(yù)測(cè):這類(lèi)方法不使用一個(gè)顯式的條件,而是微調(diào)文本嵌入和去噪網(wǎng)絡(luò)的參數(shù),來(lái)使其學(xué)習(xí)新穎條件的信息,從而利用微調(diào)后的權(quán)重來(lái)實(shí)現(xiàn)可控生成。例如DreamBooth和Textual Inversion就是這類(lèi)做法。
3. 無(wú)需訓(xùn)練的條件得分預(yù)測(cè):這類(lèi)方法無(wú)需對(duì)模型進(jìn)行訓(xùn)練,可以直接將條件作用于模型的預(yù)測(cè)環(huán)節(jié),例如在Layout-to-Image(布局圖像生成)任務(wù)中,可以直接修改cross-attention層的attention map來(lái)實(shí)現(xiàn)設(shè)定物體的布局。
條件引導(dǎo)的得分評(píng)估
條件引導(dǎo)估的得分估計(jì)方法是通過(guò)條件預(yù)測(cè)模型(如上圖Condition Predictor)反傳梯度來(lái)在去噪過(guò)程中增加條件指導(dǎo)。
利用特定條件生成
1. Personalization(定制化):定制化任務(wù)旨在捕捉和利用概念作為生成條件行可控生成,這些條件不容易通過(guò)文本描述,需要從示例圖像中進(jìn)行提取。如DreamBooth,Texutal Inversion和LoRA。
2. Spatial Control(空間控制):由于文本很難表示結(jié)構(gòu)信息,即位置和密集標(biāo)簽,因此使用空間信號(hào)控制文本到圖像擴(kuò)散方法是一個(gè)重要的研究領(lǐng)域,例如布局、人體姿勢(shì)、人體解析。方法例如ControlNet。
3. Advanced Text-Conditioned Generation(增強(qiáng)的文本條件生成):盡管文本在文本到圖像擴(kuò)散模型中起著基礎(chǔ)條件的作用,但該領(lǐng)域仍存在一些挑戰(zhàn)。
首先,在涉及多個(gè)主題或豐富描述的復(fù)雜文本中進(jìn)行文本引導(dǎo)合成時(shí),通常會(huì)遇到文本不對(duì)齊的問(wèn)題。此外,這些模型主要在英語(yǔ)數(shù)據(jù)集上訓(xùn)練,導(dǎo)致了多語(yǔ)言生成能力明顯不足。為解決這一限制,許多工作提出了旨在拓展這些模型語(yǔ)言范圍的創(chuàng)新方法。
4. In-Context Generation(上下文生成):在上下文生成任務(wù)中,根據(jù)一對(duì)特定任務(wù)示例圖像和文本指導(dǎo),在新的查詢(xún)圖像上理解并執(zhí)行特定任務(wù)。
5. Brain-Guided Generation(腦信號(hào)引導(dǎo)生成):腦信號(hào)引導(dǎo)生成任務(wù)專(zhuān)注于直接從大腦活動(dòng)控制圖像創(chuàng)建,例如腦電圖(EEG)記錄和功能性磁共振成像(fMRI)。
6. Sound-Guided Generation(聲音引導(dǎo)生成):以聲音為條件生成相符合的圖像。
7. Text Rendering(文本渲染):在圖像中生成文本,可以被廣泛應(yīng)用到海報(bào)、數(shù)據(jù)封面、表情包等應(yīng)用場(chǎng)景。
多條件生成
多條件生成任務(wù)旨在根據(jù)多種條件生成圖像,例如在用戶(hù)定義的姿勢(shì)下生成特定人物或以三種個(gè)性化身份生成人物。
在本節(jié)中,我們從技術(shù)角度對(duì)這些方法進(jìn)行了全面概述,并將它們分類(lèi)以下類(lèi)別:
1. Joint Training(聯(lián)合訓(xùn)練):在訓(xùn)練階段就引入多個(gè)條件進(jìn)行聯(lián)合訓(xùn)練。
2. Continual Learning(持續(xù)學(xué)習(xí)):有順序的學(xué)習(xí)多個(gè)條件,在學(xué)習(xí)新條件的同時(shí)不遺忘舊的條件,以實(shí)現(xiàn)多條件生成。
3. Weight Fusion(權(quán)重融合):用不同條件微調(diào)得到的參數(shù)進(jìn)行權(quán)重融合,以使模型同時(shí)具備多個(gè)條件下的生成。
4. Attention-based Integration(基于注意力的集成):通過(guò)attention map來(lái)設(shè)定多個(gè)條件(通常為物體)在圖像中的位置,以實(shí)現(xiàn)多條件生成。
通用條件生成
除了針對(duì)特定類(lèi)型條件量身定制的方法之外,還存在旨在適應(yīng)圖像生成中任意條件的通用方法。
這些方法根據(jù)它們的理論基礎(chǔ)被廣泛分類(lèi)為兩組:通用條件分?jǐn)?shù)預(yù)測(cè)框架和通用條件引導(dǎo)分?jǐn)?shù)估計(jì)。
1. 通用條件分?jǐn)?shù)預(yù)測(cè)框架:通用條件分?jǐn)?shù)預(yù)測(cè)框架通過(guò)創(chuàng)建一個(gè)能夠編碼任何給定條件并利用它們來(lái)預(yù)測(cè)圖像合成過(guò)程中每個(gè)時(shí)間步的噪聲的框架。
這種方法提供了一種通用解決方案,可以靈活地適應(yīng)各種條件。通過(guò)直接將條件信息整合到生成模型中,該方法允許根據(jù)各種條件動(dòng)態(tài)調(diào)整圖像生成過(guò)程,使其多才多藝且適用于各種圖像合成場(chǎng)景。
2. 通用條件引導(dǎo)分?jǐn)?shù)估計(jì):其他方法利用條件引導(dǎo)的分?jǐn)?shù)估計(jì)將各種條件納入文本到圖像擴(kuò)散模型中。主要挑戰(zhàn)在于在去噪過(guò)程中從潛變量獲得特定條件的指導(dǎo)。
應(yīng)用
引入新穎條件可以在多個(gè)任務(wù)中發(fā)揮用處,其中包括圖像編輯、圖像補(bǔ)全、圖像組合、文/圖生成3D。
例如,在圖像編輯中,可以利用定制化方法,將圖中出現(xiàn)貓編輯為特具有定身份的貓。其他內(nèi)容請(qǐng)參考論文。
總結(jié)
這份綜述深入探討了文本到圖像擴(kuò)散模型的條件生成領(lǐng)域,揭示了融入文本引導(dǎo)生成過(guò)程中的新穎條件。
首先,作者為讀者提供基礎(chǔ)知識(shí),介紹去噪擴(kuò)散概率模型、著名的文本到圖像擴(kuò)散模型以及一個(gè)結(jié)構(gòu)良好的分類(lèi)法。隨后,作者揭示了將新穎條件引入T2I擴(kuò)散模型的機(jī)制。
然后,作者總結(jié)了先前的條件生成方法,并從理論基礎(chǔ)、技術(shù)進(jìn)展和解決方案策略等方面對(duì)它們進(jìn)行分析。
此外,作者探索可控生成的實(shí)際應(yīng)用,在AI內(nèi)容生成時(shí)代強(qiáng)調(diào)其在其中發(fā)揮重要作用和巨大潛力。
這項(xiàng)調(diào)查旨在全面了解當(dāng)前可控T2I生成領(lǐng)域的現(xiàn)狀,從而促進(jìn)這一充滿(mǎn)活力研究領(lǐng)域持續(xù)演變和拓展。