無(wú)需訓(xùn)練,這個(gè)新方法實(shí)現(xiàn)了生成圖像尺寸、分辨率自由
近期,擴(kuò)散模型憑借其出色的性能已超越 GAN 和自回歸模型,成為生成式模型的主流選擇?;跀U(kuò)散模型的文本到圖像生成模型(如 SD、SDXL、Midjourney 和 Imagen)展現(xiàn)了生成高質(zhì)量圖像的驚人能力。通常,這些模型在特定分辨率下進(jìn)行訓(xùn)練,以確保在現(xiàn)有硬件上實(shí)現(xiàn)高效處理和穩(wěn)定的模型訓(xùn)練。
圖 1 : 采用不同方法在 SDXL 1.0 下生成 2048×2048 圖像的對(duì)比。[1]
然而,當(dāng)這些預(yù)訓(xùn)練的擴(kuò)散模型在超出訓(xùn)練分辨率時(shí)生成圖像,通常會(huì)出現(xiàn)模式重復(fù)和嚴(yán)重的人工偽影(artifacts)問(wèn)題,如圖 1 最左側(cè)所示。
為了解決這一問(wèn)題,來(lái)自香港中文大學(xué) - 商湯科技聯(lián)合實(shí)驗(yàn)室等機(jī)構(gòu)的研究者們?cè)谝黄撐闹猩钊胙芯苛藬U(kuò)散模型中常用的 UNet 結(jié)構(gòu)的卷積層,并從頻域分析的角度提出了 FouriScale, 如圖 2 所示。
圖 2 FouriScale 的流程(橙色線(xiàn))示意圖,目的是保證跨分辨率的一致性。
FouriScale 通過(guò)引入空洞卷積操作和低通濾波操作來(lái)替換預(yù)訓(xùn)練擴(kuò)散模型中的原始卷積層,旨在實(shí)現(xiàn)不同分辨率下的結(jié)構(gòu)和尺度一致性。配合「填充然后裁剪」策略,該方法能夠靈活生成不同尺寸和長(zhǎng)寬比的圖像。此外,借助 FouriScale 作為指導(dǎo),該方法在生成任意尺寸的高分辨率圖像時(shí),能夠保證完整的圖像結(jié)構(gòu)和卓越的圖像質(zhì)量。FouriScale 無(wú)需任何離線(xiàn)預(yù)計(jì)算,具有良好的兼容性和可擴(kuò)展性。
定量和定性實(shí)驗(yàn)結(jié)果表明,F(xiàn)ouriScale 在利用預(yù)訓(xùn)練擴(kuò)散模型生成高分辨率圖像方面取得了顯著提升。
- 論文地址:https://arxiv.org/abs/2403.12963
- 開(kāi)源代碼:https://github.com/LeonHLJ/FouriScale
- 論文標(biāo)題:FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis
方法介紹
1、空洞卷積保證跨分辨率下的結(jié)構(gòu)一致性
擴(kuò)散模型的去噪網(wǎng)絡(luò)通常是在特定分辨率的圖像或潛在空間上訓(xùn)練的,這個(gè)網(wǎng)絡(luò)通常采用 U-Net 結(jié)構(gòu)。作者的目標(biāo)是在推理階段使用去噪網(wǎng)絡(luò)的參數(shù)生成分辨率更高的圖像,而無(wú)需重新訓(xùn)練。為了避免推理分辨率下的結(jié)構(gòu)失真,作者嘗試在默認(rèn)分辨率和高分辨率之間建立結(jié)構(gòu)一致性。對(duì)于 U-Net 中的卷積層,結(jié)構(gòu)一致性可表述為:
其中 k 是原本的卷積核,k' 是為更大分辨率定制的新卷積核。根據(jù)空間下采樣的頻域表示,如下:
可以將公式(3)寫(xiě)為:
這個(gè)公式表明了理想卷積核 k' 的傅里葉頻譜應(yīng)該是由 s×s 個(gè)卷積核 k 的傅里葉頻譜拼接而成的。換句話(huà)說(shuō),k' 的傅里葉頻譜應(yīng)該有周期性重復(fù),這個(gè)重復(fù)模式是 k 的傅里葉頻譜。
廣泛使用的空洞卷積正好滿(mǎn)足這個(gè)要求??斩淳矸e的頻域周期性可以通過(guò)下式表示:
當(dāng)利用預(yù)訓(xùn)練擴(kuò)散模型(訓(xùn)練分辨率為(h,w))生成 (H,W) 的高分辨率圖像時(shí),空洞卷積的參數(shù)使用原始卷積核,擴(kuò)張因子為 (H/h, W/w),是理想的卷積核 k'。
2、低通濾波保證跨分辨率下的尺度一致性
然而,只利用空洞卷積無(wú)法完美地解決問(wèn)題,如圖 3 左上角所示,只使用空洞卷積仍然在細(xì)節(jié)上存在模式重復(fù)的現(xiàn)象。作者認(rèn)為這是因?yàn)榭臻g下采樣的頻率混疊現(xiàn)象改變了頻域分量,導(dǎo)致了不同分辨率下頻域分布的差異。為了保證跨分辨率下的尺度一致性,他們引入了低通濾波來(lái)過(guò)濾掉高頻分量,以去除空間下采樣后的頻率混疊問(wèn)題。從圖 3 右側(cè)對(duì)比曲線(xiàn)可以看到,在使用低通濾波后,高低分辨率下的頻率分布更加接近,從而保證了尺度一致。從圖 3 左下角圖看到,在使用低通濾波后,細(xì)節(jié)的模式重復(fù)現(xiàn)象有明顯地改善。
圖 3 (a) 是否采用低通濾波的視覺(jué)對(duì)比。(b)不采用低通濾波的傅立葉相對(duì)對(duì)數(shù)幅值曲線(xiàn)。(c) 采用低通濾波的傅立葉相對(duì)對(duì)數(shù)幅值曲線(xiàn)。
3、適應(yīng)于任意尺寸的圖像生成
以上的方式只能適應(yīng)于生成分辨率與默認(rèn)推理分辨率的長(zhǎng)寬比一致時(shí),為了使 FouriScale 適應(yīng)于任意尺寸的圖像生成,作者采用了一種「填充然后裁剪」的方式,方法 1 中展示了結(jié)合了該策略的 FouriScale 的偽代碼.
4、FouriScale 引導(dǎo)
由于 FouriScale 中的頻域操作,不可避免的使生成的圖像出現(xiàn)了細(xì)節(jié)缺失與不期望的偽影問(wèn)題。為了解決這一問(wèn)題,如圖 4,作者提出了將 FouriScale 作為引導(dǎo)的方式。具體來(lái)說(shuō),在原本的條件生成估計(jì)以及無(wú)條件生成估計(jì)的基礎(chǔ)上,他們引入一個(gè)額外的條件生成估計(jì)。這個(gè)額外的條件生成估計(jì)的生成過(guò)程同樣采用空洞卷積,但是使用更加溫和的低通濾波,從而保證細(xì)節(jié)不丟失。同時(shí)他們將利用 FouriScale 輸出的條件生成估計(jì)中的注意力分?jǐn)?shù)替換掉這一額外的條件生成估計(jì)中的注意力分?jǐn)?shù),由于注意力分?jǐn)?shù)包含著生成圖像中的結(jié)構(gòu)信息,這一操作將 FouriScale 中正確的圖像結(jié)構(gòu)信息引入,同時(shí)保證了圖像質(zhì)量。
圖 4 (a) FouriScale 引導(dǎo)示意圖。(b)不采用 FouriScale 作為引導(dǎo)的生成圖像,有明顯的偽影和細(xì)節(jié)錯(cuò)誤。(c) 采用 FouriScale 作為引導(dǎo)的生成圖像。
實(shí)驗(yàn)
1. 定量試驗(yàn)結(jié)果
作者遵循 [1] 的方法,測(cè)試了三個(gè)文生圖模型(包括 SD 1.5,SD 2.1 和 SDXL 1.0),生成四種更高分辨率的圖像。測(cè)試的分辨率是它們各自訓(xùn)練分辨率的 4 倍、6.25 倍、8 倍和 16 倍像素?cái)?shù)量。在 Laion-5B 上隨機(jī)采樣 30000/10000 個(gè)圖文對(duì)測(cè)試的結(jié)果如表 1 所示:
表 1 不同的無(wú)需訓(xùn)練方法的定量結(jié)果對(duì)比
他們的方法在各個(gè)預(yù)訓(xùn)練模型,不同分辨率下都獲得了最優(yōu)的結(jié)果。
2. 定性試驗(yàn)結(jié)果
如圖 5 所示,他們的方法在各個(gè)預(yù)訓(xùn)練模型,不同分辨率下都能夠保證圖像生成質(zhì)量與一致的結(jié)構(gòu)。
圖 5 不同的無(wú)需訓(xùn)練方法的生成圖像對(duì)比
結(jié)論
本文提出了 FouriScale 用于增強(qiáng)預(yù)訓(xùn)練擴(kuò)散模型生成高分辨率圖像的能力。FouriScale 從頻域分析出來(lái),通過(guò)空洞卷積和低通濾波操作改善了不同分辨率下的結(jié)構(gòu)和尺度一致性,解決了重復(fù)模式和結(jié)構(gòu)失真等關(guān)鍵挑戰(zhàn)。采用「填充然后裁剪」策略并利用 FouriScale 作為指導(dǎo),增強(qiáng)了文本到圖像生成的靈活性和生成質(zhì)量,同時(shí)適應(yīng)了不同的長(zhǎng)寬比生成。定量和定性的實(shí)驗(yàn)對(duì)比表明,F(xiàn)ouriScale 能夠在不同預(yù)訓(xùn)練模型,不同分辨率下都能夠保證更高的圖像生成質(zhì)量。
本文轉(zhuǎn)自機(jī)器之心 ,作者:機(jī)器之心
