自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GAN歸來(lái):模型大幅簡(jiǎn)化,訓(xùn)練更穩(wěn)定,逆襲擴(kuò)散模型,AI社區(qū)瘋傳

人工智能 新聞
本周五,AI 社區(qū)開(kāi)始討論一種全新極簡(jiǎn)主義 GAN(生成對(duì)抗網(wǎng)絡(luò))。

2025 年了,GAN 能否擊敗擴(kuò)散模型?答案是 Yes!

本周五,AI 社區(qū)開(kāi)始討論一種全新極簡(jiǎn)主義 GAN(生成對(duì)抗網(wǎng)絡(luò))。

圖片

現(xiàn)代版 GAN 基準(zhǔn)論文成為了周五 HuggingFace 熱度最高的研究。該論文也入選了 NeurIPS 2024。

它并不像以往那樣走 tricks 路徑 —— 通過(guò)一場(chǎng)「現(xiàn)代化」改造,GAN 現(xiàn)在可以進(jìn)行更長(zhǎng)時(shí)間的訓(xùn)練(與擴(kuò)散模型的訓(xùn)練步驟數(shù)相當(dāng)),一旦 GAN 訓(xùn)練時(shí)間足夠長(zhǎng),并且架構(gòu)足夠強(qiáng)大,它們就可以勝過(guò)擴(kuò)散模型,并成為更好、更快、更小的模型。

來(lái)自布朗大學(xué)、康奈爾大學(xué)的研究者們表示,通過(guò)引入一個(gè)新的損失函數(shù),我們就可以解決以往 GAN 模式崩潰(collapse)和不穩(wěn)定性的問(wèn)題。

為了證明可行性,他們測(cè)試了 GAN 里流行的 StyleGAN2,通過(guò)新的理論進(jìn)行最簡(jiǎn)升級(jí)(修改后改名為「R3GAN」)。結(jié)果雖然模型變得更簡(jiǎn)單了,但 R3GAN 在圖像生成和數(shù)據(jù)增強(qiáng)任務(wù)上性能還是超過(guò)了所有 GAN 模型和擴(kuò)散模型。

圖片

新的方法給未來(lái)的研究奠定了一個(gè)更為整潔、可擴(kuò)展的基礎(chǔ)。

圖片

  • 論文鏈接:https://arxiv.org/abs/2501.05441
  • GitHub 鏈接:https://github.com/brownvc/R3GAN
  • HuggingFace:https://huggingface.co/spaces/multimodalart/R3GAN

有一種廣泛流傳的說(shuō)法認(rèn)為 GAN 很難訓(xùn)練,并且文獻(xiàn)中的 GAN 架構(gòu)充斥著大量的經(jīng)驗(yàn)性 tricks。但是作者團(tuán)隊(duì)提供了反駁這一說(shuō)法的證據(jù),并以更有原則的方式建立了一個(gè)現(xiàn)代版 GAN 基線。

在該研究中,作者首先通過(guò)推導(dǎo)出一個(gè)行為良好的正則化相對(duì) GAN 損失函數(shù),解決了模式 dropping 和不收斂問(wèn)題,而這些問(wèn)題在以前經(jīng)常是通過(guò)大量 ad-hoc tricks 來(lái)應(yīng)對(duì)的。他們從數(shù)學(xué)層面分析了這一損失函數(shù),并證明它具有局部收斂保證,這與大多數(shù)現(xiàn)有的相對(duì)損失函數(shù)不同。

其次,這個(gè)損失函數(shù)能夠拋棄所有的 ad-hoc tricks,并用現(xiàn)代版架構(gòu)替代常見(jiàn)的 GAN 中所使用的過(guò)時(shí)的骨干網(wǎng)絡(luò)。以 StyleGAN2 為例,他們展示了一個(gè)簡(jiǎn)化過(guò)的現(xiàn)代版路線圖 ——R3GAN(Re-GAN)。盡管方法非常簡(jiǎn)單,但它在 FFHQ、ImageNet、CIFAR 和 Stacked MNIST 數(shù)據(jù)集上卻超越了 StyleGAN2,并且在與最先進(jìn)的 GAN 和擴(kuò)散模型的比較中表現(xiàn)出色。

在生成式 AI 技術(shù)興起之前,GAN 是 AI 領(lǐng)域中的熱門(mén)研究方向,該方法能讓我們能夠在一次前向傳遞中生成高質(zhì)量圖像。然而我們無(wú)法忽略的是,Goodfellow 等人構(gòu)建的原始目標(biāo)因其極小極大特性而極難優(yōu)化,訓(xùn)練的不穩(wěn)定性一直對(duì) GAN 的研究產(chǎn)生著負(fù)面影響。

與擴(kuò)散模型等其他生成模型相比,GAN 的發(fā)展一直比較緩慢??紤]到一旦得到了表現(xiàn)良好的損失函數(shù),我們就可以自由地設(shè)計(jì)現(xiàn)代 SOTA 主干架構(gòu)。在新工作中,作者剝離了 StyleGAN 的所有功能,找出那些必不可少的功能,然后從現(xiàn)代 ConvNets 和 transformer 中借用了架構(gòu)設(shè)計(jì),包括一系列 ResNet 設(shè)計(jì)、初始化、重采樣、分組卷積、no normalization 等,引出了一種比 StyleGAN 更簡(jiǎn)單的設(shè)計(jì)。

該工作率先從數(shù)學(xué)上證明了 GAN 不需要通過(guò)改進(jìn)的正則化損失來(lái)進(jìn)行訓(xùn)練。

提高訓(xùn)練穩(wěn)定性

該研究證明,通過(guò)將目標(biāo)進(jìn)展與正則化訓(xùn)練損失結(jié)合起來(lái),GAN 獲得了更高的訓(xùn)練穩(wěn)定性,能夠用現(xiàn)代骨干網(wǎng)絡(luò)升級(jí) GAN。

首先,該研究提出了一個(gè)新的目標(biāo),通過(guò)零中心梯度懲罰增強(qiáng) RpGAN,提高穩(wěn)定性。該研究從數(shù)學(xué)上證明,梯度懲罰 RpGAN 與正則化經(jīng)典 GAN 享有相同的局部收斂保證,并且刪除正則化方案會(huì)導(dǎo)致不收斂。

在定義 GAN 的目標(biāo)時(shí),研究者需要應(yīng)對(duì)兩個(gè)挑戰(zhàn):穩(wěn)定性和多樣性。為了在這兩方面同時(shí)取得進(jìn)展,該研究將 stable 方法與基于理論的簡(jiǎn)單正則化器結(jié)合起來(lái)。

傳統(tǒng) GAN 被表述為判別器 D_ψ 和生成器 G_θ 之間的極小極大博弈:

圖片

在實(shí)際實(shí)現(xiàn)中,傳統(tǒng) GAN 容易受到兩種常見(jiàn)故障場(chǎng)景的影響:模式 collapse/dropping 和不收斂。 

該研究采用了一種略有不同的極小極大博弈 ——RpGAN,由 Jolicoeur-Martineau 等人提出,以解決模式 dropping 問(wèn)題。

一般的 RpGAN 定義為:

圖片

然而,經(jīng)驗(yàn)表明,未正則化的 RpGAN 表現(xiàn)不佳。

為了解決 RpGAN 不收斂的問(wèn)題,該研究探索梯度懲罰作為解決方案,因?yàn)槭聦?shí)證明,零中心梯度懲罰 (0-GP) 有助于經(jīng)典 GAN 的收斂訓(xùn)練。兩個(gè)最常用的 0-GP 是 R1 和 R2:

圖片

研究團(tuán)隊(duì)認(rèn)為實(shí)際的解決方案是在真實(shí)數(shù)據(jù)和虛假數(shù)據(jù)上對(duì) D 進(jìn)行正則化。此外,如 Fang et al.(2022) 所言,真實(shí)數(shù)據(jù)和虛假數(shù)據(jù)具有大致相同的梯度范數(shù)可能會(huì)減少判別器過(guò)擬合。

圖片

新基線的路線圖 — R3GAN

行為良好的 RpGAN + R1 + R2 損失函數(shù)緩解了 GAN 優(yōu)化中的問(wèn)題,同時(shí)根據(jù)近期的骨干網(wǎng)絡(luò)進(jìn)展,這使他們能夠構(gòu)建一個(gè)極簡(jiǎn)版基線 ——R3GAN。這不僅僅只是提出一種新方法,而是從 StyleGAN2 基線中繪制出一條路線圖。

這個(gè)模型(配置 A)包括一個(gè)類(lèi)似于 VGG 的骨干網(wǎng)絡(luò)(G),一個(gè) ResNet(D),一些有助于基于風(fēng)格生成的 tricks,以及許多作為修補(bǔ)弱骨干網(wǎng)絡(luò)的 tricks。接著去除了 StyleGAN2 中所有非必要的特性(配置 B),并應(yīng)用他們的損失函數(shù)(配置 C),逐步現(xiàn)代化網(wǎng)絡(luò)骨干(配置 D-E)。

圖片

圖片

架構(gòu)比較

實(shí)驗(yàn)細(xì)節(jié)

模式恢復(fù) — StackedMNIST 

研究團(tuán)隊(duì)在 StackedMNIST(無(wú)條件生成)上重復(fù)了之前在 1000-mode 收斂實(shí)驗(yàn)中的做法,但這一次使用了更新后的架構(gòu),并與最先進(jìn)的 GAN 及基于似然的方法進(jìn)行了比較。

圖片

圖片

在 Stacked-MNIST 上使用配置 E 生成的樣本定性示例

FID — FFHQ-256

研究者訓(xùn)練配置 E 模型直到收斂,并在 FFHQ 數(shù)據(jù)集上使用優(yōu)化的超參數(shù)和訓(xùn)練計(jì)劃進(jìn)行 256×256 分辨率的無(wú)條件生成。

圖片

圖片

在 FFHQ-256 上使用配置 E 生成的樣本定性示例

FID — FFHQ-64

為了與 EDM 進(jìn)行直接比較,研究團(tuán)隊(duì)在 64×64 分辨率的 FFHQ 數(shù)據(jù)集上評(píng)估了模型。為此,他們?nèi)コ?256×256 模型中的兩個(gè)最高分辨率階段,從而得到了一個(gè)生成器,其參數(shù)數(shù)量不到 EDM 的一半。盡管如此,他們的模型在該數(shù)據(jù)集上的表現(xiàn)仍是超過(guò)了 EDM,并且只需要一次函數(shù)評(píng)估。

圖片

FID — CIFAR-10 

研究者訓(xùn)練配置 E 模型直到收斂,并在 CIFAR-10 數(shù)據(jù)集上使用優(yōu)化的超參數(shù)和訓(xùn)練計(jì)劃進(jìn)行條件生成。盡管模型容量相對(duì)較小,他們的方法在 FID 指標(biāo)上超過(guò)了許多其他 GAN 模型。

圖片

圖片

在 CIFAR-10 上使用配置 E 生成的樣本的定性示例

FID — ImageNet-32

研究者訓(xùn)練配置 E 模型直到收斂,在 ImageNet-32 數(shù)據(jù)集上使用優(yōu)化的超參數(shù)和訓(xùn)練計(jì)劃進(jìn)行條件生成,并與近期的 GAN 模型和擴(kuò)散模型進(jìn)行了比較(見(jiàn)下圖)。

作者團(tuán)隊(duì)調(diào)整了模型生成器的參數(shù)數(shù)量,使其與 StyleGAN-XL 的生成器相匹配(84M 參數(shù))。盡管使用了比判別器小 60% 的模型,并且沒(méi)有使用預(yù)訓(xùn)練的 ImageNet 分類(lèi)器,該方法仍然達(dá)到了可媲美的 FID 值。

圖片

圖片

在 ImageNet-32 上使用配置 E 生成的樣本定性示例

FID — ImageNet-64 

研究團(tuán)隊(duì)在 ImageNet-64 數(shù)據(jù)集上評(píng)估了他們的模型,以測(cè)試其可擴(kuò)展性。他們?cè)?ImageNet-32 模型的基礎(chǔ)上增加了一個(gè)分辨率階段,從而得到了一個(gè)包含 104M 參數(shù)的生成器。該模型的參數(shù)量幾乎是依賴于 ADM 骨干網(wǎng)絡(luò)的擴(kuò)散模型 的三分之一,這些模型的參數(shù)量大約為 300M。

盡管模型較小,并且他們的模型在一步生成樣本的同時(shí),其在 FID 指標(biāo)上超越了更大參數(shù)量的擴(kuò)散模型(見(jiàn)下圖)。

圖片

圖片

在 ImageNet-64 上使用配置 E 生成的樣本定性示例

新 GAN 研究正在社區(qū)獲得越來(lái)越多的關(guān)注。StabilityAI 的研究總監(jiān)也轉(zhuǎn)發(fā)了該篇論文,并對(duì)作者團(tuán)隊(duì)去除了 StyleGAN 中許多復(fù)雜性并且提高性能一點(diǎn),給出了高度評(píng)價(jià)。

圖片

GAN 加入了現(xiàn)代化元素之后,是否可以重新起航逆襲 Stable Diffusion?對(duì)此,你怎么看?

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-02-08 10:48:02

2025-02-24 13:35:00

2023-02-01 13:39:46

2023-11-17 08:46:26

2025-03-03 04:20:00

2022-12-25 12:57:00

模型自然學(xué)習(xí)

2025-01-13 08:20:00

AI模型訓(xùn)練

2024-05-14 11:31:29

IBM開(kāi)源Granite AI

2025-02-24 14:15:00

模型訓(xùn)練AI

2024-05-24 08:42:29

智能體訓(xùn)練

2021-12-30 10:11:38

模型人工智能深度學(xué)習(xí)

2024-05-10 07:58:03

2023-08-25 13:21:56

論文模型

2024-03-25 11:37:40

機(jī)器學(xué)習(xí)人工智能進(jìn)化算法

2025-04-01 09:54:09

AI算法大模型AI

2021-05-18 15:22:54

AI 數(shù)據(jù)人工智能

2024-10-29 14:40:00

圖像生成模型

2021-08-25 17:03:09

模型人工智能PyTorch

2024-04-26 12:51:48

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)