AI繪畫新思路:國產(chǎn)開源50億參數(shù)新模型,合成可控性、質(zhì)量實(shí)現(xiàn)飛躍
- 論文地址:https://arxiv.org/pdf/2302.09778v2.pdf
- 項(xiàng)目地址:https://github.com/damo-vilab/composer
近年來,在大數(shù)據(jù)上學(xué)習(xí)的大規(guī)模生成模型能夠出色地合成圖像,但可控性有限??煽貓D像生成的關(guān)鍵不僅依賴于條件,而且更重要的是依賴于組合性。后者可以通過引入巨大數(shù)量的潛在組合來指數(shù)級地?cái)U(kuò)展控制空間(例如 100 個(gè)圖像,每個(gè)有 8 個(gè)表征,產(chǎn)生大約 100^8 種組合)。類似的概念在語言和場景理解領(lǐng)域得到了探索,其中的組合性被稱為組合泛化,即從有限的已知成分中識(shí)別或生成潛在的無限數(shù)量的新組合的技能。
最新的一項(xiàng)研究提供了一種新的生成范式 —— 可以在靈活控制輸出圖像(如空間布局和調(diào)色板)的同時(shí)保持合成質(zhì)量和模型創(chuàng)造力。
這項(xiàng)研究以組合性為核心思想,首先將圖像分解為具有代表性的因子,然后以這些因子為條件訓(xùn)練擴(kuò)散模型,對輸入進(jìn)行重組。在推理階段,豐富的中間表征形式作為可組合元素,為可定制內(nèi)容的創(chuàng)建提供了巨大的設(shè)計(jì)空間 (即與分解因子的數(shù)量成指數(shù)比例)。值得注意的是,名為 Composer 的方法支持各種級別的條件,例如將文本描述作為全局信息,將深度圖和草圖作為局部指導(dǎo),將顏色直方圖作為低級細(xì)節(jié)等。
除了提高可控性之外,該研究還確認(rèn)了 Composer 可以作為通用框架,在無需再訓(xùn)練的情況下促進(jìn)廣泛的經(jīng)典生成任務(wù)。
方法
本文所介紹的框架包括分解階段(圖像被分為一組獨(dú)立的組件)與合成階段(組件利用條件擴(kuò)散模型重新組合)。這里首先簡要介紹擴(kuò)散模型和使用 Composer 實(shí)現(xiàn)的制導(dǎo)方向,然后將詳細(xì)說明圖像分解和合成的實(shí)現(xiàn)。
2.1. 擴(kuò)散模型
擴(kuò)散模型是一種生成模型,通過迭代去噪過程從高斯噪聲中產(chǎn)生數(shù)據(jù)。通常使用簡單的均方誤差作為去噪目標(biāo):
其中,x_0 是具有可選條件 c 的訓(xùn)練數(shù)據(jù),是加性高斯噪聲,a_t、σ_t 是 t 的標(biāo)量函數(shù),
是具有可學(xué)習(xí)參數(shù) θ 的擴(kuò)散模型。無分類器引導(dǎo)在最近的工作中得到了最廣泛的應(yīng)用,用于擴(kuò)散模型的條件數(shù)據(jù)采樣,其中預(yù)測的噪聲通過以下方式進(jìn)行調(diào)整:
公式
中, ω 為引導(dǎo)權(quán)重。DDIM 和 DPM-Solver 經(jīng)常被用于加速擴(kuò)散模型的采樣過程。DDIM 還可以用于將樣本 x_0 反推到其純噪聲潛在 x_T,從而實(shí)現(xiàn)各種圖像編輯操作。
引導(dǎo)方向:Composer 是一個(gè)可以接受多種條件的擴(kuò)散模型,可以在無分類器引導(dǎo)下實(shí)現(xiàn)各種方向:
c_1 和 c_2 是兩組條件。c_1 和 c_2 的不同選擇表征對條件的不同強(qiáng)調(diào)。
(c_2 \ c_1) 內(nèi)的條件強(qiáng)調(diào)為 ω, (c_1 \ c_2) 內(nèi)的條件抑制為 (1?ω), c1∩c2 內(nèi)的條件的指導(dǎo)權(quán)重為 1.0.。雙向指導(dǎo):通過使用條件 c_1 將圖像 x_0 反轉(zhuǎn)到潛在的 x_T,然后使用另一個(gè)條件 c_2 從 x_T 采樣,研究能夠使用 Composer 以一種解糾纏的方式操作圖像,其中操作方向由 c_2 和 c_1 之間的差異來定義。
分解
研究將圖像分解為捕捉圖像各個(gè)方面的去耦表征,并且描述了該任務(wù)中使用的八種表征,這幾種表征都是在訓(xùn)練過程中實(shí)時(shí)提取的。
說明(Caption):研究直接使用圖像 - 文本訓(xùn)練數(shù)據(jù)中的標(biāo)題或描述信息(例如,LAION-5B (Schuhmann et al., 2022))作為圖像說明。當(dāng)注釋不可用時(shí),還可以利用預(yù)訓(xùn)練好的圖像說明模型。研究使用預(yù)訓(xùn)練的 CLIP ViT-L /14@336px (Radford et al., 2021) 模型提取的句子和單詞嵌入來表征這些標(biāo)題。
語義和風(fēng)格(Semantics and style):研究使用預(yù)先訓(xùn)練的 CLIP ViT-L/14@336px 模型提取的圖像嵌入來表征圖像的語義和風(fēng)格,類似于 unCLIP。
顏色(Color):研究使用平滑的 CIELab 直方圖表征圖像的顏色統(tǒng)計(jì)。將 CIELab 顏色空間量化為 11 個(gè)色調(diào)值,5 個(gè)飽和度和 5 個(gè)光值,使用平滑 sigma 為 10。經(jīng)驗(yàn)所得,這樣設(shè)置的效果更好。
草圖(Sketch):研究應(yīng)用邊緣檢測模型,然后使用草圖簡化算法來提取圖像的草圖。草圖捕捉圖像的局部細(xì)節(jié),具有較少的語義。
實(shí)例(Instances):研究使用預(yù)訓(xùn)練的 YOLOv5 模型對圖像應(yīng)用實(shí)例分割來提取其實(shí)例掩碼。實(shí)例分割掩碼反映了視覺對象的類別和形狀信息。
深度圖(Depthmap):研究使用預(yù)訓(xùn)練的單目深度估計(jì)模型來提取圖像的深度圖,大致捕捉圖像的布局。
強(qiáng)度(Intensity):研究引入原始灰度圖像作為表征,迫使模型學(xué)習(xí)處理顏色的解糾纏自由度。為了引入隨機(jī)性,研究統(tǒng)一從一組預(yù)定義的 RGB 通道權(quán)重中采樣來創(chuàng)建灰度圖像。
掩碼(Masking):研究引入圖像掩碼,使 Composer 能夠?qū)D像生成或操作限制在可編輯的區(qū)域。使用 4 通道表征,其中前 3 個(gè)通道對應(yīng)于掩碼 RGB 圖像,而最后一個(gè)通道對應(yīng)于二進(jìn)制掩碼。
需要注意的是,雖然本文使用上述八種條件進(jìn)行了實(shí)驗(yàn),但用戶可以使用 Composer 自由定制條件。
構(gòu)成
研究使用擴(kuò)散模型從一組表征中重新組合圖像。具體來說,研究利用 GLIDE 架構(gòu)并修改其調(diào)節(jié)模塊。研究探索了兩種不同的機(jī)制來根據(jù)表征調(diào)整模型:
全局調(diào)節(jié):對于包括 CLIP 句子嵌入、圖像嵌入和調(diào)色板在內(nèi)的全局表征,研究將它們投影并添加到時(shí)間步嵌入中。此外,研究還將圖像嵌入和調(diào)色板投射到八個(gè)額外的 token 中,并將它們與 CLIP 詞嵌入連接起來,然后將其用作 GLIDE 中交叉注意的上下文,類似于 unCLIP 。由于條件要么是相加的,要么可以在交叉注意中選擇性地掩蓋,所以在訓(xùn)練和推理期間可以直接放棄條件,或者引入新的全局條件。
局部化調(diào)節(jié):對于局部化表征,包括草圖、分割掩碼、深度映射、強(qiáng)度圖像和掩碼圖像,研究使用堆疊卷積層將它們投射到與噪聲潛在 x_t 具有相同空間大小的均維嵌入中。然后計(jì)算這些嵌入的和,并將結(jié)果連接到 x_t,然后將其輸入到 UNet。由于嵌入是可添加的,因此很容易適應(yīng)缺失的條件或合并新的局部化條件。
聯(lián)合訓(xùn)練策略:設(shè)計(jì)一種聯(lián)合訓(xùn)練策略,使模型能夠從各種條件組合中學(xué)習(xí)解碼圖像,這一點(diǎn)很重要。研究對幾種配置進(jìn)行了實(shí)驗(yàn),并確定了一個(gè)簡單而有效的配置,其中對每個(gè)條件使用獨(dú)立的退出概率為 0.5,刪除所有條件的概率為 0.1,保留所有條件的概率為 0.1。對于強(qiáng)度圖像使用 0.7 的特殊退出概率,因?yàn)樗鼈儼岁P(guān)于圖像的絕大多數(shù)信息,并且在訓(xùn)練過程中可能會(huì)弱化其他條件。
基本擴(kuò)散模型產(chǎn)生 64 × 64 分辨率的圖像。為了生成高分辨率圖像,研究訓(xùn)練了兩個(gè)無條件擴(kuò)散模型用于上采樣,分別將圖像從 64 × 64 提升到 256 × 256,以及從 256 × 256 提升到 1024 × 1024 分辨率。上采樣模型的架構(gòu)是從 unCLIP 修改的,其中研究在低分辨率層中使用更多通道,并引入自注意塊來擴(kuò)大容量。此外還引入了一個(gè)可選的先驗(yàn)?zāi)P?,該模型從字幕生成圖像嵌入。根據(jù)經(jīng)驗(yàn),先驗(yàn)?zāi)P湍軌蛟谔囟ǖ臈l件組合下提高生成圖像的多樣性。
實(shí)驗(yàn)
變體:使用 Composer 可以創(chuàng)建與給定圖像相似的新圖像,但通過對其表征的特定子集所進(jìn)行的條件反射在某些方面有些不同。通過仔細(xì)選擇不同表征的組合,人們可以靈活地控制圖像變化的范圍 (圖 2a)。在納入更多的條件后,研究所介紹的方法比僅以圖像嵌入為條件的 unCLIP 生成變體:使用 Composer 可以創(chuàng)建與給定圖像相似的新圖像,但通過對其表征的特定子集進(jìn)行條件反射,在某些方面有所不同。通過仔細(xì)選擇不同表征的組合,人們可以靈活地控制圖像變化的范圍 (圖 2a)。在納入更多的條件后,研究所介紹的方法比僅以圖像嵌入為條件的 unCLIP 的重建準(zhǔn)確率更高。