自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

無需訓(xùn)練,這個新方法實現(xiàn)了生成圖像尺寸、分辨率自由

人工智能 新聞
近日,來自香港中文大學(xué) - 商湯科技聯(lián)合實驗室等機構(gòu)的研究者們提出了FouriScale,該方法在利用預(yù)訓(xùn)練擴散模型生成高分辨率圖像方面取得了顯著提升。

近期,擴散模型憑借其出色的性能已超越 GAN 和自回歸模型,成為生成式模型的主流選擇?;跀U散模型的文本到圖像生成模型(如 SD、SDXL、Midjourney 和 Imagen)展現(xiàn)了生成高質(zhì)量圖像的驚人能力。通常,這些模型在特定分辨率下進行訓(xùn)練,以確保在現(xiàn)有硬件上實現(xiàn)高效處理和穩(wěn)定的模型訓(xùn)練。

圖 1 : 采用不同方法在 SDXL 1.0 下生成 2048×2048 圖像的對比。[1]

然而,當(dāng)這些預(yù)訓(xùn)練的擴散模型在超出訓(xùn)練分辨率時生成圖像,通常會出現(xiàn)模式重復(fù)和嚴重的人工偽影(artifacts)問題,如圖 1 最左側(cè)所示。

為了解決這一問題,來自香港中文大學(xué) - 商湯科技聯(lián)合實驗室等機構(gòu)的研究者們在一篇論文中深入研究了擴散模型中常用的 UNet 結(jié)構(gòu)的卷積層,并從頻域分析的角度提出了 FouriScale, 如圖 2 所示。

圖 2 FouriScale 的流程(橙色線)示意圖,目的是保證跨分辨率的一致性。

FouriScale 通過引入空洞卷積操作和低通濾波操作來替換預(yù)訓(xùn)練擴散模型中的原始卷積層,旨在實現(xiàn)不同分辨率下的結(jié)構(gòu)和尺度一致性。配合「填充然后裁剪」策略,該方法能夠靈活生成不同尺寸和長寬比的圖像。此外,借助 FouriScale 作為指導(dǎo),該方法在生成任意尺寸的高分辨率圖像時,能夠保證完整的圖像結(jié)構(gòu)和卓越的圖像質(zhì)量。FouriScale 無需任何離線預(yù)計算,具有良好的兼容性和可擴展性。

定量和定性實驗結(jié)果表明,F(xiàn)ouriScale 在利用預(yù)訓(xùn)練擴散模型生成高分辨率圖像方面取得了顯著提升。


  • 論文地址:https://arxiv.org/abs/2403.12963
  • 開源代碼:https://github.com/LeonHLJ/FouriScale
  • 論文標(biāo)題:FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis

方法介紹

1、空洞卷積保證跨分辨率下的結(jié)構(gòu)一致性

擴散模型的去噪網(wǎng)絡(luò)通常是在特定分辨率的圖像或潛在空間上訓(xùn)練的,這個網(wǎng)絡(luò)通常采用 U-Net 結(jié)構(gòu)。作者的目標(biāo)是在推理階段使用去噪網(wǎng)絡(luò)的參數(shù)生成分辨率更高的圖像,而無需重新訓(xùn)練。為了避免推理分辨率下的結(jié)構(gòu)失真,作者嘗試在默認分辨率和高分辨率之間建立結(jié)構(gòu)一致性。對于 U-Net 中的卷積層,結(jié)構(gòu)一致性可表述為:

圖片

其中 k 是原本的卷積核,k' 是為更大分辨率定制的新卷積核。根據(jù)空間下采樣的頻域表示,如下:

圖片

可以將公式(3)寫為:

圖片

這個公式表明了理想卷積核 k' 的傅里葉頻譜應(yīng)該是由 s×s 個卷積核 k 的傅里葉頻譜拼接而成的。換句話說,k' 的傅里葉頻譜應(yīng)該有周期性重復(fù),這個重復(fù)模式是 k 的傅里葉頻譜。

廣泛使用的空洞卷積正好滿足這個要求??斩淳矸e的頻域周期性可以通過下式表示:

圖片

當(dāng)利用預(yù)訓(xùn)練擴散模型(訓(xùn)練分辨率為(h,w))生成 (H,W) 的高分辨率圖像時,空洞卷積的參數(shù)使用原始卷積核,擴張因子為 (H/h, W/w),是理想的卷積核 k'。

2、低通濾波保證跨分辨率下的尺度一致性

然而,只利用空洞卷積無法完美地解決問題,如圖 3 左上角所示,只使用空洞卷積仍然在細節(jié)上存在模式重復(fù)的現(xiàn)象。作者認為這是因為空間下采樣的頻率混疊現(xiàn)象改變了頻域分量,導(dǎo)致了不同分辨率下頻域分布的差異。為了保證跨分辨率下的尺度一致性,他們引入了低通濾波來過濾掉高頻分量,以去除空間下采樣后的頻率混疊問題。從圖 3 右側(cè)對比曲線可以看到,在使用低通濾波后,高低分辨率下的頻率分布更加接近,從而保證了尺度一致。從圖 3 左下角圖看到,在使用低通濾波后,細節(jié)的模式重復(fù)現(xiàn)象有明顯地改善。

圖 3 (a) 是否采用低通濾波的視覺對比。(b)不采用低通濾波的傅立葉相對對數(shù)幅值曲線。(c) 采用低通濾波的傅立葉相對對數(shù)幅值曲線。

3、適應(yīng)于任意尺寸的圖像生成

以上的方式只能適應(yīng)于生成分辨率與默認推理分辨率的長寬比一致時,為了使 FouriScale 適應(yīng)于任意尺寸的圖像生成,作者采用了一種「填充然后裁剪」的方式,方法 1 中展示了結(jié)合了該策略的 FouriScale 的偽代碼。

圖片

4、FouriScale 引導(dǎo)

由于 FouriScale 中的頻域操作,不可避免的使生成的圖像出現(xiàn)了細節(jié)缺失與不期望的偽影問題。為了解決這一問題,如圖 4,作者提出了將 FouriScale 作為引導(dǎo)的方式。具體來說,在原本的條件生成估計以及無條件生成估計的基礎(chǔ)上,他們引入一個額外的條件生成估計。這個額外的條件生成估計的生成過程同樣采用空洞卷積,但是使用更加溫和的低通濾波,從而保證細節(jié)不丟失。同時他們將利用 FouriScale 輸出的條件生成估計中的注意力分數(shù)替換掉這一額外的條件生成估計中的注意力分數(shù),由于注意力分數(shù)包含著生成圖像中的結(jié)構(gòu)信息,這一操作將 FouriScale 中正確的圖像結(jié)構(gòu)信息引入,同時保證了圖像質(zhì)量。

圖 4 (a) FouriScale 引導(dǎo)示意圖。(b)不采用 FouriScale 作為引導(dǎo)的生成圖像,有明顯的偽影和細節(jié)錯誤。(c) 采用 FouriScale 作為引導(dǎo)的生成圖像。

實驗

1. 定量試驗結(jié)果

作者遵循 [1] 的方法,測試了三個文生圖模型(包括 SD 1.5,SD 2.1 和 SDXL 1.0),生成四種更高分辨率的圖像。測試的分辨率是它們各自訓(xùn)練分辨率的 4 倍、6.25 倍、8 倍和 16 倍像素數(shù)量。在 Laion-5B 上隨機采樣 30000/10000 個圖文對測試的結(jié)果如表 1 所示:

表 1 不同的無需訓(xùn)練方法的定量結(jié)果對比

他們的方法在各個預(yù)訓(xùn)練模型,不同分辨率下都獲得了最優(yōu)的結(jié)果。

2. 定性試驗結(jié)果

如圖 5 所示,他們的方法在各個預(yù)訓(xùn)練模型,不同分辨率下都能夠保證圖像生成質(zhì)量與一致的結(jié)構(gòu)。

圖 5 不同的無需訓(xùn)練方法的生成圖像對比

結(jié)論

本文提出了 FouriScale 用于增強預(yù)訓(xùn)練擴散模型生成高分辨率圖像的能力。FouriScale 從頻域分析出來,通過空洞卷積和低通濾波操作改善了不同分辨率下的結(jié)構(gòu)和尺度一致性,解決了重復(fù)模式和結(jié)構(gòu)失真等關(guān)鍵挑戰(zhàn)。采用「填充然后裁剪」策略并利用 FouriScale 作為指導(dǎo),增強了文本到圖像生成的靈活性和生成質(zhì)量,同時適應(yīng)了不同的長寬比生成。定量和定性的實驗對比表明,F(xiàn)ouriScale 能夠在不同預(yù)訓(xùn)練模型,不同分辨率下都能夠保證更高的圖像生成質(zhì)量。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-08-23 09:20:00

AI搜索

2023-11-30 13:04:56

LCM圖像

2017-04-10 09:17:08

神經(jīng)網(wǎng)絡(luò)分辨率像素遞歸

2021-02-20 16:07:27

神經(jīng)網(wǎng)絡(luò)AI算法

2024-07-05 10:41:30

目標(biāo)檢測算法

2014-08-08 14:46:25

手機型號屏幕尺寸

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡(luò)攻擊

2010-06-18 09:48:22

2025-02-05 12:41:21

線性新范式分辨率

2021-01-20 11:14:47

人工智能算法技術(shù)

2022-07-12 14:50:03

模型研究

2014-08-07 15:06:45

Android設(shè)備分辨率

2022-03-23 10:44:02

圖像訓(xùn)練框架

2024-07-10 12:42:53

2013-03-11 13:48:24

投影

2010-04-01 09:30:57

2015-08-21 09:14:40

大數(shù)據(jù)

2025-01-15 09:28:42

訓(xùn)練模型圖像生成

2018-07-12 10:08:31

圖像超分辨率重建技術(shù)原理

2022-01-17 17:01:23

深度學(xué)習(xí)圖像人工智能
點贊
收藏

51CTO技術(shù)棧公眾號