GAN已死?GAN萬歲!布朗康奈爾新作爆火,一夜碾壓擴(kuò)散模型
GAN已死?
不,GAN又回來了!
此前曾掀起AI圈巨大風(fēng)暴的GAN,后來卻逐漸沉寂了,甚至有人發(fā)出了「GAN已死」的論調(diào)。
2022年,「GAN已經(jīng)過時、被擴(kuò)散模型取代」的論調(diào)激起熱議
原因有很多,比如人們普遍覺得GAN很難訓(xùn)練,文獻(xiàn)中的GAN架構(gòu)也充斥著經(jīng)驗技巧。
但就在剛剛,布朗大學(xué)和康奈爾的研究者在這篇論文中,要徹底為GAN正名!
論文地址:https://arxiv.org/abs/2501.05441
論文中,作者提出了一種突破性的新型GAN架構(gòu)——R3GAN(Re-GAN),其最大核心亮點在于,引入了全新的正則化相對性損失函數(shù)。
它不僅在理論上證明了局部收斂性,更在實踐中顯著提升了模型訓(xùn)練的穩(wěn)定性。
這一突破,使得模型能夠摒棄傳統(tǒng)GAN中必須依賴的各種技巧,轉(zhuǎn)而采用了更加現(xiàn)代化的深度學(xué)習(xí)架構(gòu)。
結(jié)果證明,一個不使用任何技巧的極簡GAN,能夠以一半的模型參數(shù),以及單步生成的方式達(dá)到與EDM(擴(kuò)散模型)相當(dāng)?shù)男阅堋?/span>
就看這個R3GAN的出圖質(zhì)量是多么地穩(wěn)定!
圍觀網(wǎng)友們表示,這絕對是改變游戲規(guī)則的一項研究——如果能正確地訓(xùn)練GAN,那簡直就是一場噩夢。
在智能體非常爆火的當(dāng)下,GAN顯得前途無量。
因為GAN非常適合需要速度的專門任務(wù),而Transformer則適用于其他所有任務(wù)。智能體就可以使用GAN,來加速部分流程,或做出時間關(guān)鍵的決策。
擴(kuò)散模型風(fēng)生水起,GAN卻陷困境
還記得2014年,當(dāng)Goodfellow等人首次提出GAN時,整個AI界都為之震動。
一個能夠通過單詞前向傳播生成高質(zhì)量的模型,簡直就是一場革命。
論文地址:https://arxiv.org/pdf/1406.2661
然而,隨之而來的困擾也接踵而至——訓(xùn)練不穩(wěn)定性,成為了揮之不去的陰影。
對于研究人員來說,他們擔(dān)憂的是害怕模型訓(xùn)練隨時會「暴走」,或者生成的圖像千篇一律,失去了應(yīng)有的多樣性。
盡管這些年,GAN的目標(biāo)函數(shù)不斷改進(jìn),但在具體實踐中,這些函數(shù)的問題是始終如影隨形,一直以來對GAN研究產(chǎn)生了持久的負(fù)面影響。
隨后,2019年,著名的StyleGAN架構(gòu)誕生了。它就像是一個「補(bǔ)丁大師」,為了提高穩(wěn)定性,使用了梯度懲罰的非飽和損失;同時又為了增加樣本多樣性,又不得不采用小批量標(biāo)準(zhǔn)差的技巧。
論文地址:https://arxiv.org/pdf/1812.04948
這些看似矛盾的做法,實際上反映了GAN架構(gòu)本身的局限性。
更有趣的是,如果去除這些技巧,StyleGAN的骨干網(wǎng)絡(luò)竟和2015年的DCGAN驚人地相似!
這就不禁讓人思考:為什么其他生成模型,比如擴(kuò)散模型,都能得到快速改進(jìn),而GAN卻似乎停滯不前?
在擴(kuò)散模型中,多頭自注意力等等現(xiàn)代計算機(jī)視覺技術(shù),以及預(yù)激活ResNet、U-Net和視覺Transformer(ViT)等骨干網(wǎng)絡(luò)已成為常態(tài)。
考慮到這些過時的骨干網(wǎng)絡(luò),人們普遍認(rèn)為GAN在FID等定量指標(biāo)方面無法擴(kuò)展,也就不足為奇了。
好消息是,布朗大學(xué)和康奈爾大學(xué)的研究人員在這個領(lǐng)域取得了重大的突破。他們提出了一個創(chuàng)新性的解決方案,包含兩個關(guān)鍵要素:
- 新型目標(biāo)函數(shù)
將相對配對GAN損失(RpGAN)與零中心梯度懲罰相結(jié)合,提高了穩(wěn)定性。他們在數(shù)據(jù)上證明了,帶梯度懲罰的RpGAN,享有與正則化經(jīng)典GAN相同的局部收斂性。
- 現(xiàn)代化改造
摒棄StyleGAN反鎖技巧,轉(zhuǎn)而采用簡潔而高效的現(xiàn)代架構(gòu)設(shè)計。結(jié)果發(fā)現(xiàn),適當(dāng)?shù)腞esNet設(shè)計、初始化和重采樣,同時加上分組卷積和無歸一化,就能達(dá)到甚至超越StyleGAN的性能。
總的來說,新論文首先從數(shù)學(xué)上論證了通過改進(jìn)的正則化損失,讓GAN的訓(xùn)練不必那么棘手。
然后,在實驗中開發(fā)了一個簡單的GAN基準(zhǔn),在不使用任何技巧的情況下,在FFHQ、ImageNet、CIFAR和Stacked MNIST數(shù)據(jù)集上,其FID表現(xiàn)優(yōu)于StyleGAN、其他最先進(jìn)的GAN和擴(kuò)散模型。
那么,研究人員具體是如何做到的呢?
RpGAN+R_1+R_2穩(wěn)定性和多樣性
在定義GAN的目標(biāo)函數(shù)時,研究人員面臨這兩個挑戰(zhàn):穩(wěn)定性和多樣性。
先前的研究中,有的專攻穩(wěn)定性問題,而有的則處理處理模式崩塌問題。
為了在這兩個方面都取得進(jìn)展,團(tuán)隊將一個穩(wěn)定的方法與一個基于理論的簡單正則化器相結(jié)合。
傳統(tǒng)GAN
傳統(tǒng)GAN是在判別器D_ψ和生成器G_θ之間的極小極大博弈中形成的。給定真實數(shù)據(jù)x ~ p_D和G_θ生產(chǎn)的虛假數(shù)據(jù)x ~ p_θ,GAN最一般的形式可以表示為:
其中G試圖最小化L,而D試圖最大化G,f的選擇是靈活的。特別地,當(dāng)時,就得到了Goodfellow等人提出的經(jīng)典GAN。
實踐已經(jīng)證明,當(dāng)p_θ可以直接優(yōu)化時,該方程具有凸性質(zhì)。然而,在實際實現(xiàn)中,經(jīng)驗GAN損失通常會將虛假樣本推到D設(shè)定的決策邊界之外,而不是直接更新密度函數(shù) p_θ。
這種偏差導(dǎo)致了一個顯著更具挑戰(zhàn)性的問題,其特征是容易出現(xiàn)兩種普遍的失敗情況:模式崩塌/丟失和不收斂。
相對f-GAN(Relativistic f-GAN)
這時,研究人員采用了由Jolicoeur Martineau團(tuán)隊提出的一種略有不同的極小極大博弈,稱為相對配對GAN(RpGAN),用于解決模式丟失問題。
一般的RpGAN定義如下:
雖然方程2(RpGAN)和方程1(傳統(tǒng)GAN)看起來只有細(xì)微差別,但評估這種判別器差異對損失函數(shù)L的整體形態(tài)有根本性影響。
RpGAN通過耦合真實和虛假數(shù)據(jù),引入了一個簡單的解決方案,即通過將虛假樣本相對于真實樣本的真實性來進(jìn)行評判,這有效地在每個真實樣本的鄰域中維持了一個決策邊界,從而防止了模式丟失。
RpGAN的訓(xùn)練動態(tài)
盡管RpGAN的景觀結(jié)果,讓研究人員能夠解決模式丟失的問題,但RpGAN的訓(xùn)練動態(tài)還有待研究。
等式2的最終目標(biāo)是找到平衡點(θ^?, ψ^?),使得p_θ^? = p_D且Dψ^?在p_D上處處為常數(shù)。
這里,作者提出了兩個命題:
命題 I.(非形式化表述):使用梯度下降法時,未正則化的RpGAN并不總是收斂。
命題 II.(非形式化表述):在與Mescheder等人類似的假設(shè)條件下,使用R_1或R_2正則化的RpGAN能夠?qū)崿F(xiàn)局部收斂。
對于第一個命題,他們通過分析表明,對于某些類型的p_D,比如接近于delta分布,RpGAN是不會收斂的。因此,為了構(gòu)建一個表現(xiàn)良好的損失函數(shù),進(jìn)一步的正則化是必要的。
對于第二個命題,研究的證明類似地分析了在點(θ^?,ψ^?)處正則化RpGAN梯度向量場的雅可比(Jacobian)矩陣特征值。他們證明了所有特征值都具有負(fù)實部;因此,對于足夠小的學(xué)習(xí)率,正則化RpGAN在(θ^?,ψ^?)的鄰域內(nèi)是收斂的。
實際演示
如下圖1展示了,使用R_1正則化的傳統(tǒng)GAN損失函數(shù),會快速發(fā)散。雖然從理論上來說,僅使用R_1正則化的RpGAN足以實現(xiàn)局部收斂,但它也會表現(xiàn)不穩(wěn)定并且會快速發(fā)散。
同時使用R1和R2正則化后,傳統(tǒng)GAN和RpGAN的訓(xùn)練都變得穩(wěn)定。
如下表1所示,在穩(wěn)定的情況下,可以看到傳統(tǒng)GAN存在模式丟失問題,而RpGAN則實現(xiàn)了完整的模式覆蓋,并將D_KL從0.9270降低到0.0781。
作為對比,StyleGAN使用小批量標(biāo)準(zhǔn)差技巧來減少模式丟失,在StackedMNIST數(shù)據(jù)集上將模式覆蓋從857提高到881,但在D_KL上幾乎沒有改善。
全新基線路線圖——R3GAN
精心設(shè)計的RpGAN+R_1+R_2損失緩解了GAN的優(yōu)化問題,使研究者能夠以最新的網(wǎng)絡(luò)骨干進(jìn)展為基礎(chǔ),構(gòu)建一個極簡的基準(zhǔn)模型——R3GAN。
在這項工作中,研究者并不是簡單地陳述新方法,而是從StyleGAN2基準(zhǔn)模型出發(fā)繪制路線圖。
該模型包括生成器 (G) 的VGG風(fēng)格骨干網(wǎng)絡(luò)、判別器 (D) 的ResNet結(jié)構(gòu)、一系列促進(jìn)基于風(fēng)格生成的技術(shù),以及許多彌補(bǔ)弱主干網(wǎng)絡(luò)缺陷的技巧。
隨后,他們移除了StyleGAN2的所有非必要特性,應(yīng)用了所提出的損失函數(shù),并逐步對網(wǎng)絡(luò)骨干進(jìn)行現(xiàn)代化改造。
研究者在FFHQ 256×256數(shù)據(jù)集上評估了每種配置。
所有配置的網(wǎng)絡(luò)容量大致保持相同——生成器 (G) 和判別器 (D) 的可訓(xùn)練參數(shù)均約為2500萬。
每種配置的訓(xùn)練均持續(xù)到判別器 (D) 處理了500萬張真實圖像。除非另有說明,訓(xùn)練的超參數(shù)(例如優(yōu)化器設(shè)置、批大小、EMA衰減長度)均沿用自配置A。
研究者針對最終模型調(diào)整了訓(xùn)練超參數(shù),并將在第4節(jié)中展示其收斂結(jié)果。
最小基線(配置B)
研究者移除了所有StyleGAN2的特性,僅保留原始的網(wǎng)絡(luò)骨干和基礎(chǔ)的圖像生成能力。
這些特性可分為三類:
- 基于風(fēng)格的生成:映射網(wǎng)絡(luò)、風(fēng)格注入、權(quán)重調(diào)制/去調(diào)制、噪聲注入 。
- 圖像操作增強(qiáng):混合正則化、路徑長度正則化。
- 技巧:z歸一化、小批量標(biāo)準(zhǔn)差、均衡學(xué)習(xí)率、延遲正則化。
遵循以上做法,研究者將z的維度降低至64。由于移除了均衡學(xué)習(xí)率,學(xué)習(xí)率需進(jìn)一步降低,從原來的2.5×10?3降至5×10??。
盡管與配置A相比,簡化后的基線模型的FID更高,但它仍能生成質(zhì)量較好的樣本,并實現(xiàn)穩(wěn)定的訓(xùn)練效果。
研究者將其與DCGAN進(jìn)行比較,主要區(qū)別包括:
a) 使用R1正則化的收斂訓(xùn)練目標(biāo)。
b) 較小的學(xué)習(xí)率,避免使用帶動量的優(yōu)化器。
c) 在生成器 (G) 和判別器 (D) 中均不使用歸一化層。
d) 通過雙線性插值進(jìn)行正確的重采樣,而非使用步幅(反卷積)操作。
e) 在G和D中使用leaky ReLU激活函數(shù),G 的輸出層中不使用tanh。
f) G使用4×4常量輸入,輸出跳躍連接,D使用ResNet結(jié)構(gòu)。
StyleGAN的實驗發(fā)現(xiàn)
違反a)、b) 或 c),通常會導(dǎo)致訓(xùn)練失敗。前人研究表明,負(fù)動量可以改善 GAN的訓(xùn)練動態(tài)。
然而,由于負(fù)動量的最優(yōu)設(shè)置是一個復(fù)雜的超參數(shù),因此研究者選擇不使用任何動量,以避免惡化GAN的訓(xùn)練動態(tài)。
研究表明,歸一化層對生成模型有害。批歸一化通常會由于跨多個樣本的依賴性而破壞訓(xùn)練,并且與假設(shè)每個樣本獨(dú)立處理的R_1、R_2或 RpGAN不兼容。
早期的GAN雖然可能違反a)和c),但仍能成功,這或許是因為它們對方程1提供了一個滿秩解。
違反d)或e)雖然不會顯著影響訓(xùn)練的穩(wěn)定性,但會對樣本質(zhì)量產(chǎn)生負(fù)面影響。
不正確的反卷積可能導(dǎo)致棋盤偽影,即使使用子像素卷積或精心調(diào)整的反卷積也無法解決,除非應(yīng)用低通濾波器。
插值方法可以避免該問題,為了簡化,研究者采用雙線性插值。
在激活函數(shù)的選擇上,研究者選擇使用leaky ReLU。
所有后續(xù)配置均遵守a)到e)。f)的違反是可以接受的,因為它涉及到 StyleGAN2的網(wǎng)絡(luò)骨干,在配置D和配置E中已經(jīng)現(xiàn)代化。
表現(xiàn)良好的損失函數(shù)(配置C):研究者采用第2節(jié)提出的損失函數(shù),將 FID降低到11.65。他們推測,配置B的網(wǎng)絡(luò)骨干是性能的限制因素。
通用網(wǎng)絡(luò)現(xiàn)代化(配置D):研究者首先將1-3-1瓶頸ResNet 架構(gòu)應(yīng)用于G和D。該架構(gòu)是所有現(xiàn)代視覺骨干網(wǎng)絡(luò)的直接前身。
圖 2:架構(gòu)對比。在圖像生成中,生成器 (G) 和判別器 (D) 通常都是深度卷積網(wǎng)絡(luò) (ConvNets),且架構(gòu)部分或完全對稱。(a) StyleGAN2的生成器 (G) 使用一個網(wǎng)絡(luò)將噪聲向量z映射到中間風(fēng)格空間W。(b) StyleGAN2的構(gòu)建模塊層次復(fù)雜,但其本質(zhì)仍然簡單,采用了2015年的卷積網(wǎng)絡(luò)架構(gòu)。(c) 研究者去除了各種技巧并對架構(gòu)進(jìn)行了現(xiàn)代化設(shè)計,如更干凈的層次結(jié)構(gòu),更強(qiáng)大的卷積網(wǎng)絡(luò)架構(gòu)
研究者還結(jié)合了從配置B中發(fā)現(xiàn)的原則,以及ConvNeXt的各種現(xiàn)代化設(shè)計。他們將ConvNeXt的發(fā)展路線分為以下幾類:
i. 持續(xù)有益的改進(jìn):
- i.1) 使用深度卷積增加網(wǎng)絡(luò)寬度,
- i.2) 反轉(zhuǎn)瓶頸結(jié)構(gòu),
- i.3) 減少激活函數(shù),
- i.4) 獨(dú)立的重采樣層。
ii. 性能提升有限:
- ii.1) 較大卷積核的深度卷積配合更少的通道數(shù),
- ii.2) 用GELU替換ReLU,
- ii.3) 減少歸一化層,
- ii.4) 用層歸一化替換批歸一化。
iii. 與模型無關(guān)的改進(jìn):
- iii.1) 改進(jìn)的訓(xùn)練策略,
- iii.2) 階段比率,
- iii.3) 「patchify」的網(wǎng)絡(luò)輸入層。
研究者計劃將i)中的改進(jìn)應(yīng)用于他們的模型,特別是針對經(jīng)典ResNet應(yīng)用的i.3 和i.4,而i.1和i.2則留待配置E。
神經(jīng)網(wǎng)絡(luò)架構(gòu)細(xì)節(jié)
基于i.3、i.4以及原則c)、d)和e),研究者將StyleGAN2的骨干替換為現(xiàn)代化的 ResNet。
生成器(G)和判別器(D)的設(shè)計完全對稱,參數(shù)量均為2500萬,與配置A相當(dāng)。
架構(gòu)設(shè)計極簡:每個分辨率階段包含一個轉(zhuǎn)換層和兩個殘差塊。
- 轉(zhuǎn)換層:由雙線性重采樣和一個可選的1×1卷積層組成,用于改變空間尺寸和特征圖通道數(shù)。
- 殘差塊:包括以下五個操作:Conv1×1→Leaky ReLU→Conv3×3→Leaky ReLU→Conv1×1,其中最后的Conv1×1不帶偏置項。
對4×4分辨率階段,轉(zhuǎn)換層在G中被基礎(chǔ)層替代,在D中被分類頭替代:
- 基礎(chǔ)層:類似于StyleGAN,使用4×4可學(xué)習(xí)特征圖,通過線性層調(diào)制z。
- 分類頭:使用全局4×4深度卷積去除空間維度,然后通過線性層生成D的輸出。
實驗細(xì)節(jié)
FFHQ-256的路線圖見解
如表2所示,配置A(原始 StyleGAN2)在FFHQ-256數(shù)據(jù)集上使用官方實現(xiàn),達(dá)到了7.52的FID。
移除所有技巧的配置B,實現(xiàn)了12.46的FID,性能如預(yù)期有所下降。
配置C使用表現(xiàn)良好的損失函數(shù),F(xiàn)ID降至11.65,訓(xùn)練穩(wěn)定性也得到了顯著提升,為改進(jìn)架構(gòu)提供了可能。
Config D基于經(jīng)典ResNet和ConvNeXt的研究改進(jìn)了G和D,F(xiàn)ID進(jìn)一步降至9.95。
在研究者的新架構(gòu)下,StyleGAN2生成器的輸出跳躍連接不再有用,保留它反而會使FID升高至10.17。
對于Config E,研究者進(jìn)行了兩個實驗,分別對 i.1(通過深度卷積增加寬度)和 i.2(反轉(zhuǎn)瓶頸結(jié)構(gòu))進(jìn)行消融。
通過反轉(zhuǎn)輸入層和瓶頸維度以增強(qiáng)分組卷積的容量,最終模型達(dá)到了7.05的 FID,性能超過了StyleGAN2。
模式恢復(fù)實驗 - StackedMNIST
研究者在StackedMNIST數(shù)據(jù)集上重復(fù)了早期的1000模態(tài)收斂實驗,但這次使用了更新后的架構(gòu),并與當(dāng)前最先進(jìn)的GAN和基于似然的方法進(jìn)行了比較(見表3和圖5)。
基于似然的模型(如擴(kuò)散模型)的一個優(yōu)勢是能夠?qū)崿F(xiàn)模式覆蓋。
研究者發(fā)現(xiàn),大多數(shù)GAN都難以捕獲所有模態(tài)。然而,PresGAN、DDGAN和他們的方法在這方面都取得了成功。
FID — FFHQ-256(優(yōu)化版本)
研究者在FFHQ數(shù)據(jù)集上,以256×256 分辨率訓(xùn)練Config E模型,直至收斂,并使用了優(yōu)化的超參數(shù)和訓(xùn)練計劃(見表4,圖4和圖6)。
他們的模型在該常見實驗設(shè)置下,性能優(yōu)于現(xiàn)有的StyleGAN方法以及四種最新的基于擴(kuò)散模型的方法。
FID — FFHQ-64
為了直接與EDM進(jìn)行比較,研究者在FFHQ數(shù)據(jù)集上以64×64分辨率評估了模型。
為此,他們移除了256×256模型中兩個最高分辨率的階段,從而使生成器的參數(shù)數(shù)量不到EDM的一半。
盡管如此,模型在該數(shù)據(jù)集上的表現(xiàn)仍優(yōu)于EDM,且僅需一次函數(shù)評估。
FID — CIFAR-10
研究人員在CIFAR-10數(shù)據(jù)集上訓(xùn)練Config E模型,直至收斂,并使用了優(yōu)化的超參數(shù)和訓(xùn)練計劃(見表6,圖8)。
盡管模型容量相對較小,但在FID指標(biāo)上仍優(yōu)于許多其他GAN方法。
例如,StyleGAN-XL的生成器參數(shù)量為1800萬,判別器參數(shù)量為1.25億,而新模型的生成器和判別器總參數(shù)量僅為4000萬(如下圖3所示)。
與基于擴(kuò)散模型的方法(如LDM、ADM)相比,GAN推理顯著更高效,因為GAN僅需一次網(wǎng)絡(luò)函數(shù)評估,而擴(kuò)散模型在沒有蒸餾的情況下通常需要數(shù)十到數(shù)百次評估。
許多當(dāng)前最先進(jìn)的GAN都源于Projected GAN,包括StyleGAN-XL和同時期的StyleSAN-XL。這些方法在判別器中使用了一個預(yù)訓(xùn)練的ImageNet分類器。
已有研究表明,預(yù)訓(xùn)練的ImageNet判別器可能會將ImageNet的特征泄露到模型中,從而導(dǎo)致模型在FID評估中表現(xiàn)更好,因為它依賴于預(yù)訓(xùn)練的ImageNet分類器來計算損失。
然而,這并未在感知研究中提升結(jié)果。新模型無需任何ImageNet預(yù)訓(xùn)練,即可實現(xiàn)較低的FID。
FID — ImageNet-32
研究人員在ImageNet-32數(shù)據(jù)集(條件生成)上訓(xùn)練Config E模型,直至收斂,并使用了優(yōu)化的超參數(shù)和訓(xùn)練計劃。
如下表7,對比了新方法與近期的GAN模型和擴(kuò)散模型。
作者調(diào)整了生成器的參數(shù)數(shù)量,使其與StyleGAN-XL的生成器匹配(84M參數(shù)),具體來說,他們將模型顯著加寬以達(dá)到這一目標(biāo)。
盡管判別器的參數(shù)量比StyleGAN-XL小了60%,且未使用預(yù)訓(xùn)練的ImageNet分類器,新方法仍然達(dá)到了與其相當(dāng)?shù)腇ID。
FID — ImageNet-64
研究人員在ImageNet-64數(shù)據(jù)集上評估了新模型,以測試其擴(kuò)展能力。
他們在ImageNet-32模型的基礎(chǔ)上增加了一個分辨率階段,使生成器的參數(shù)量達(dá)到了104M。
這一模型的規(guī)模僅為基于ADM骨干的擴(kuò)散模型的三分之一(ADM骨干約有300M參數(shù))。
盡管新模型規(guī)模更小,且僅需一步即可生成樣本,但在FID指標(biāo)上仍然優(yōu)于許多需要大量網(wǎng)絡(luò)函數(shù)評估(NFE)的更大型擴(kuò)散模型(如下表8所示)。
召回率
研究人員又在每個數(shù)據(jù)集上評估了模型的召回率,以量化樣本的多樣性??傮w而言,新模型達(dá)到了與擴(kuò)散模型相似或略差的召回率,但優(yōu)于現(xiàn)有的GAN模型。
對于CIFAR-10,新模型的召回率最高達(dá)到0.57;作為對比,StyleGAN-XL盡管FID更低,但其召回率更差,僅為0.47。
對于FFHQ,新模型在64×64分辨率下獲得了0.53的召回率,在256×256分辨率下獲得了0.49的召回率,而StyleGAN2在FFHQ-256上的召回率為0.43。
研究者的ImageNet-32模型達(dá)到了0.63的召回率,這與ADM相當(dāng)。
另外,ImageNet-64模型達(dá)到了0.59的召回率。雖然這略低于許多擴(kuò)散模型達(dá)到的約0.63的水平,但仍優(yōu)于BigGAN-deep所達(dá)到的0.48的召回率。
作者介紹
Yiwen Huang
Yiwen Huang(Nick Huang)目前是布朗大學(xué)計算機(jī)科學(xué)博士生。他曾于2023年獲得了布朗大學(xué)碩士學(xué)位。
Aaron Gokaslan
Aaron Gokaslan是康奈爾大學(xué)的四年級博士候選人,導(dǎo)師是Volodymyr Kuleshov。此前,他在Facebook AI Research工作,由Dhruv Batra指導(dǎo)。
在此之前,他布朗大學(xué)完成了碩士和本科學(xué)業(yè),師從James Tompkin。
Gokaslan的研究重點是識別、設(shè)計和構(gòu)建高效、可擴(kuò)展、可持續(xù)且經(jīng)濟(jì)的生成建模研究抽象和基礎(chǔ)設(shè)施。我也在數(shù)據(jù)、法律和AI政策的交叉領(lǐng)域開展工作。
Volodymyr Kuleshov
Volodymyr Kuleshov目前是康奈爾大學(xué)計算機(jī)科學(xué)系助理教授。他曾在斯坦福大學(xué)獲得博士學(xué)位,并獲得了Arthur Samuel最佳論文獎。
他的研究主要關(guān)注機(jī)器學(xué)習(xí)及其在科學(xué)、健康和可持續(xù)性方面的應(yīng)用。
James Tompkin
James Tompkin是布朗大學(xué)助理教授,專注于計算機(jī)視覺、計算機(jī)圖形學(xué)和人機(jī)交互領(lǐng)域。