自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

首個(gè)超大規(guī)模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支持1600萬(wàn)像素

人工智能
隨著OpenAI發(fā)布DALL-E 2,自回歸和擴(kuò)散模型一夜之間成為大規(guī)模生成模型的新標(biāo)準(zhǔn),而在此之前,生成對(duì)抗網(wǎng)絡(luò)(GAN)一直都是主流選擇,并衍生出StyleGAN等技術(shù)。

??AIGC爆火的背后,從技術(shù)的角度來(lái)看,是圖像生成模型的架構(gòu)發(fā)生了巨大的變化。

隨著OpenAI發(fā)布DALL-E 2,自回歸和擴(kuò)散模型一夜之間成為大規(guī)模生成模型的新標(biāo)準(zhǔn),而在此之前,生成對(duì)抗網(wǎng)絡(luò)(GAN)一直都是主流選擇,并衍生出StyleGAN等技術(shù)。

圖片

從GAN切換到擴(kuò)散模型的架構(gòu)轉(zhuǎn)變也引出了一個(gè)問(wèn)題:能否通過(guò)擴(kuò)大GAN模型的規(guī)模,比如說(shuō)在 LAION 這樣的大型數(shù)據(jù)集中進(jìn)一步提升性能嗎?

最近,針對(duì)增加StyleGAN架構(gòu)容量會(huì)導(dǎo)致不穩(wěn)定的問(wèn)題,來(lái)自浦項(xiàng)科技大學(xué)(韓國(guó))、卡內(nèi)基梅隆大學(xué)和Adobe研究院的研究人員提出了一種全新的生成對(duì)抗網(wǎng)絡(luò)架構(gòu)GigaGAN,打破了模型的規(guī)模限制,展示了 GAN 仍然可以勝任文本到圖像合成模型。

圖片

論文鏈接:https://arxiv.org/abs/2303.05511

項(xiàng)目鏈接:https://mingukkang.github.io/GigaGAN/

GigaGAN有三大優(yōu)勢(shì)。

1. 它在推理時(shí)速度更快,相比同量級(jí)參數(shù)的Stable Diffusion-v1.5,在512分辨率的生成速度從2.9秒縮短到0.13秒。

圖片

2. 可以合成高分辨率的圖像,例如,在3.66秒內(nèi)合成1600萬(wàn)像素的圖像。

圖片

3. 支持各種潛空間編輯應(yīng)用程序,如潛插值、樣式混合和向量算術(shù)操作等。

圖片

GAN到極限了嗎?

最近發(fā)布的一系列模型,如DALL-E 2、Imagen、Parti和Stable Diffusion,開(kāi)創(chuàng)了圖像生成的新時(shí)代,在圖像質(zhì)量和模型靈活性方面達(dá)到了前所未有的水平。

現(xiàn)在占主導(dǎo)地位的范式「擴(kuò)散模型」和「自回歸模型」,都依賴于迭代推理這把雙刃劍,因?yàn)榈椒軌蛞院?jiǎn)單的目標(biāo)進(jìn)行穩(wěn)定的訓(xùn)練,但在推理過(guò)程中會(huì)產(chǎn)生更高的計(jì)算成本。

與此形成對(duì)比的是生成對(duì)抗網(wǎng)絡(luò)(GAN),只需要一次forward pass即可生成圖像,因此本質(zhì)上是更高效的。

雖然GAN模型主導(dǎo)了生成式建模的「前一個(gè)時(shí)代」,但由于訓(xùn)練過(guò)程中的不穩(wěn)定性,對(duì)GAN進(jìn)行擴(kuò)展需要仔細(xì)調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練考慮,因此GANs雖然在為單個(gè)或多個(gè)對(duì)象類別建模方面表現(xiàn)出色,但擴(kuò)展到復(fù)雜的數(shù)據(jù)集上(更不用說(shuō)開(kāi)放世界物體生成了),仍然具有挑戰(zhàn)性。

所以目前超大型的模型、數(shù)據(jù)和計(jì)算資源都主要集中在擴(kuò)散和自回歸模型上。

在這項(xiàng)工作中,研究人員主要解決以下問(wèn)題:

GAN能否繼續(xù)擴(kuò)大規(guī)模并有可能從這些資源中受益?或者說(shuō)GAN已經(jīng)到達(dá)極限了?是什么阻礙了GAN的進(jìn)一步擴(kuò)展?能否克服這些障礙?

穩(wěn)定訓(xùn)練GAN

研究人員首先用StyleGAN2進(jìn)行實(shí)驗(yàn),觀察到簡(jiǎn)單地?cái)U(kuò)展骨干網(wǎng)會(huì)導(dǎo)致不穩(wěn)定的訓(xùn)練,在確定了幾個(gè)關(guān)鍵問(wèn)題后,提出了在增加模型容量的同時(shí)穩(wěn)定訓(xùn)練的技術(shù)。

首先,通過(guò)保留一個(gè)濾波器庫(kù)(a bank of filters),并采取一個(gè)特定樣本的線性組合來(lái)有效地?cái)U(kuò)展生成器的容量。

改編了幾個(gè)在擴(kuò)散模型上下文中常用的技術(shù),并確認(rèn)它們可以為GANs帶來(lái)了類似的性能提升,例如將自注意力機(jī)制(僅圖像)和交叉注意力(圖像-文本)與卷積層交織在一起可以提高性能。

此外,研究人員重新引入了多尺度訓(xùn)練(multi-scaletraining),找到了一個(gè)新的方案可以改善圖像-文本對(duì)齊和生成輸出的低頻細(xì)節(jié)。

多尺度訓(xùn)練可以讓基于GAN的生成器更有效地使用低分辨率塊中的參數(shù),從而具有更好的圖像-文本對(duì)齊和圖像質(zhì)量。

生成器

圖片

GigaGAN的生成器由文本編碼分支(text encoding branch)、樣式映射網(wǎng)絡(luò)(style mapping network)、多尺度綜合網(wǎng)絡(luò)(multi-scale synthesis network)組成,并輔以穩(wěn)定注意力(stable attention)和自適應(yīng)核選擇(adaptive kernel selection)。

在文本編碼分支中,首先使用一個(gè)預(yù)先訓(xùn)練好的 CLIP 模型和一個(gè)學(xué)習(xí)的注意層 T 來(lái)提取文本嵌入,然后將嵌入過(guò)程傳遞給樣式映射網(wǎng)絡(luò) M,生成與 StyleGAN 類似的樣式向量 w

圖片

合成網(wǎng)絡(luò)采用樣式編碼作為modulation,以文本嵌入作為注意力來(lái)生成image pyramid,在此基礎(chǔ)上,引入樣本自適應(yīng)核選擇算法,實(shí)現(xiàn)了基于輸入文本條件的卷積核自適應(yīng)選擇。

圖片

判別器

圖片

與生成器類似,GigaGAN的判別器由兩個(gè)分支組成,分別用于處理圖像和文本條件。

文本分支處理類似于生成器的文本分支;圖像分支接收一個(gè)image pyramid作為輸入并對(duì)每個(gè)圖像尺度進(jìn)行獨(dú)立的預(yù)測(cè)。

圖片

公式中引入了多個(gè)額外的損失函數(shù)以促進(jìn)快速收斂。

實(shí)驗(yàn)結(jié)果

對(duì)大規(guī)模文本-圖像合成任務(wù)進(jìn)行系統(tǒng)的、受控的評(píng)估是困難的,因?yàn)榇蠖鄶?shù)現(xiàn)有的模型并不公開(kāi)可用,即使訓(xùn)練代碼可用,從頭開(kāi)始訓(xùn)練一個(gè)新模型的成本也會(huì)過(guò)高。

研究人員選擇在實(shí)驗(yàn)中與Imagen、Latent Diffusion Models(LDM)、Stable Diffusion和Parti進(jìn)行對(duì)比,同時(shí)承認(rèn)在訓(xùn)練數(shù)據(jù)集、迭代次數(shù)、批量大小和模型大小方面存在相當(dāng)大的差異。

對(duì)于定量評(píng)價(jià)指標(biāo),主要使用Frechet Inception Distance(FID)來(lái)衡量輸出分布的真實(shí)性,并使用CLIP分?jǐn)?shù)來(lái)評(píng)價(jià)圖像-文本對(duì)齊。

文中進(jìn)行了五個(gè)不同的實(shí)驗(yàn):

1. 通過(guò)逐步納入每個(gè)技術(shù)組件來(lái)展示提出方法的有效性;

圖片

2. 文本-圖像合成結(jié)果表明,GigaGAN表現(xiàn)出與穩(wěn)定擴(kuò)散(SD-v1.5)相當(dāng)?shù)腇ID,同時(shí)生成的結(jié)果比擴(kuò)散或自回歸模型快數(shù)百倍;

圖片

3. 將GigaGAN與基于蒸餾的擴(kuò)散模型進(jìn)行對(duì)比,顯示GigaGAN可以比基于蒸餾的擴(kuò)散模型更快地合成更高質(zhì)量的圖像;

圖片

4. 驗(yàn)證了GigaGAN的上采樣器在有條件和無(wú)條件的超分辨率任務(wù)中比其他上采樣器的優(yōu)勢(shì);

圖片

5. 結(jié)果表明大規(guī)模GANs仍然享有GANs的連續(xù)和分解潛伏空間的操作,實(shí)現(xiàn)了新的圖像編輯模式。

圖片

經(jīng)過(guò)調(diào)參,研究人員在大規(guī)模的數(shù)據(jù)集,如LAION2B-en上實(shí)現(xiàn)了穩(wěn)定和可擴(kuò)展的十億參數(shù)GAN(GigaGAN)的訓(xùn)練。

圖片

并且該方法采用了多階段的方法,首先在64×64下生成,然后上采樣到512×512,這兩個(gè)網(wǎng)絡(luò)是模塊化的,而且足夠強(qiáng)大,能夠以即插即用的方式使用。

結(jié)果表明,盡管在訓(xùn)練時(shí)從未見(jiàn)過(guò)擴(kuò)散模型的圖像,但基于文本條件的GAN上采樣網(wǎng)絡(luò)可以作為基礎(chǔ)擴(kuò)散模型(如DALL-E 2)的高效、高質(zhì)量的上采樣器。

圖片

這些成果加在一起,使得GigaGAN遠(yuǎn)遠(yuǎn)超過(guò)了以前的GAN模型,比StyleGAN2大36倍,比StyleGAN-XL和XMC-GAN大6倍。

圖片

雖然GiGAN的10億參數(shù)量仍然低于最近發(fā)布的最大合成模型,如Imagen(3B)、DALL-E 2(5.5B)和Parti(20B),但目前還沒(méi)有觀察到關(guān)于模型大小的質(zhì)量飽和度。

GigaGAN在COCO2014數(shù)據(jù)集上實(shí)現(xiàn)了9.09的zero-shot FID,低于DALL-E 2、Parti-750M和Stable Diffusion的FID

應(yīng)用場(chǎng)景

提示插值(Prompt interpolation)

GigaGAN可以在提示之間平滑地插值,下圖中的四個(gè)角是由同一潛碼生成,但帶有不同的文本提示。

圖片

解耦提示混合(Disentangled prompt mixing)

GigaGAN 保留了一個(gè)分離的潛空間,使得能夠?qū)⒁粋€(gè)樣本的粗樣式與另一個(gè)樣本的精細(xì)樣式結(jié)合起來(lái),并且GigaGAN 可以通過(guò)文本提示直接控制樣式。

圖片

粗到精風(fēng)格交換(Coarse-to-fine sytle swapping)

基于 GAN 的模型架構(gòu)保留了一個(gè)分離的潛在空間,使得能夠?qū)⒁粋€(gè)樣本的粗樣式與另一個(gè)樣本的精樣式混合在一起。

圖片

參考資料:?

https://mingukkang.github.io/GigaGAN/

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2020-09-25 09:52:48

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2016-12-14 11:44:25

阿里Docker大數(shù)據(jù)

2018-07-27 09:52:10

監(jiān)控阿里智能

2021-09-23 10:20:16

算法模型技術(shù)

2020-07-23 14:03:09

數(shù)據(jù)中心數(shù)據(jù)網(wǎng)絡(luò)

2023-07-12 14:28:45

谷歌模型

2022-12-30 14:14:51

數(shù)據(jù)中心服務(wù)器

2025-02-26 08:30:00

2020-12-11 19:52:06

數(shù)據(jù)中心超大規(guī)模數(shù)據(jù)中心

2023-02-14 11:24:36

2011-12-16 09:54:17

網(wǎng)絡(luò)架構(gòu)網(wǎng)絡(luò)架構(gòu)系統(tǒng)架構(gòu)系統(tǒng)

2021-03-22 11:16:50

人工智能應(yīng)用基礎(chǔ)設(shè)施

2023-12-12 16:54:28

數(shù)據(jù)中心人工智能

2023-01-05 13:11:20

模型

2024-04-30 07:00:00

公共云云策略云計(jì)算

2023-01-11 21:11:37

RabbitMQRocketMQ消息中間件

2021-03-16 10:28:41

數(shù)據(jù)中心IT云計(jì)算

2020-10-30 11:09:30

Pandas數(shù)據(jù)代碼

2020-02-10 08:00:38

AI 數(shù)據(jù)人工智能

2023-01-08 13:22:03

模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)