自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

英偉達(dá)超快StyleGAN回歸,比Stable Diffusion快30多倍,網(wǎng)友:GAN好像只剩下快了

人工智能 新聞
同等算力下,擴(kuò)散模型中的Stable Diffusion生成一張圖片需要3秒鐘,Imagen甚至需要接近10秒。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

擴(kuò)散模型的圖像生成統(tǒng)治地位,終于要被GAN奪回了?

就在大伙兒喜迎新年之際,英偉達(dá)一群科學(xué)家悄悄給StyleGAN系列做了個(gè)升級(jí),變出個(gè)PLUS版的StyleGAN-T,一下子在網(wǎng)上火了。

圖片

無(wú)論是在星云爆炸中生成一只柯基:

圖片

還是基于虛幻引擎風(fēng)格渲染的森林:

圖片

都只需要接近0.1秒就能生成!

同等算力下,擴(kuò)散模型中的Stable Diffusion生成一張圖片需要3秒鐘,Imagen甚至需要接近10秒。

不少網(wǎng)友的第一反應(yīng)是:

GAN,一個(gè)我太久沒(méi)聽(tīng)到的名字了。

圖片

很快谷歌大腦研究科學(xué)家、DreamFusion第一作者Ben Poole趕來(lái)圍觀,并將StyleGAN-T與擴(kuò)散模型做了個(gè)對(duì)比:

在低質(zhì)量圖像(64×64)生成方面,StyleGAN-T要比擴(kuò)散模型做得更好。

圖片

但他同時(shí)也表示,在256×256圖像生成上,還是擴(kuò)散模型的天下。

所以,新版StyleGAN生成質(zhì)量究竟如何,它又究竟是在哪些領(lǐng)域重新具備競(jìng)爭(zhēng)力的?

StyleGAN-T長(zhǎng)啥樣?

相比擴(kuò)散模型和自回歸模型多次迭代生成樣本,GAN最大的優(yōu)勢(shì)是速度

因此,StyleGAN-T這次也將重心放在了大規(guī)模文本圖像合成上,即如何在短時(shí)間內(nèi)由文本生成大量圖像。

StyleGAN-T基于StyleGAN-XL改進(jìn)而來(lái)。

StyleGAN-XL的參數(shù)量是StyleGAN3的3倍,基于ImageNet訓(xùn)練,能生成1024×1024高分辨率的圖像,并借鑒了StyleGAN2和StyleGAN3的部分架構(gòu)設(shè)計(jì)。

它的整體架構(gòu)如下:

圖片

具體到細(xì)節(jié)上,作者們對(duì)生成器、判別器和文本對(duì)齊權(quán)衡機(jī)制進(jìn)行了重新設(shè)計(jì),用FID對(duì)樣本質(zhì)量進(jìn)行量化評(píng)估,并采用CLIP來(lái)對(duì)文本進(jìn)行對(duì)齊。

在生成器上,作者們放棄了StyleGAN3中能實(shí)現(xiàn)平移同變性(equivariance)的架構(gòu),轉(zhuǎn)而采用了StyleGAN2的部分設(shè)計(jì),包括輸入空間噪聲以及跳層連接等,以提升細(xì)節(jié)隨機(jī)變化的多樣性。

在判別器上,作者們也重新進(jìn)行了設(shè)計(jì),采用自監(jiān)督學(xué)習(xí)對(duì)ViT-S進(jìn)行訓(xùn)練。

隨后,作者采用了一種特殊的截?cái)?span style="color: #8f8f8f;">(truncation)方法來(lái)控制圖像生成的效果,同時(shí)權(quán)衡生成內(nèi)容的多樣性。

只需要控制參數(shù)ψ,就能在確保CLIP分?jǐn)?shù)(用于評(píng)估圖像生成效果)變動(dòng)不大的情況下,改善生成圖像的風(fēng)格多樣性。

圖片

隨后,作者們用64個(gè)英偉達(dá)A100訓(xùn)練了4周,最終得到了這版StyleGAN-T。

那么它的生成效果如何呢?

超快生成低分辨率圖像

作者們對(duì)當(dāng)前最好的幾種GAN、擴(kuò)散模型和自回歸模型進(jìn)行了評(píng)估。

在微軟的MS COCO數(shù)據(jù)集上,StyleGAN-T實(shí)現(xiàn)了64×64分辨率下最高的FID。

(其中,F(xiàn)ID是計(jì)算真實(shí)圖像和生成圖像特征向量距離的評(píng)估用值,數(shù)值越低,表示生成的效果越接近真實(shí)圖像)

圖片

但在更高的256×256分辨率生成上,StyleGAN-T還是沒(méi)有比過(guò)擴(kuò)散模型,只是在生成效果上比同樣用GAN的LAFITE要好上不少:

圖片

如果進(jìn)一步將生成時(shí)間和FID分別作為縱軸和橫軸,放到同一張圖上來(lái)對(duì)比,還能更直觀地對(duì)比生成質(zhì)量和速度。

可見(jiàn)StyleGAN-T能保持在10FPS的速度下生成256×256分辨率圖像,同時(shí)FID值逼近LDM和GLIDE等擴(kuò)散模型:

圖片

而在文本生成圖像功能上,作者們也從文本特征、風(fēng)格控制等方面對(duì)模型進(jìn)行了測(cè)試。

在增加或改變特定的形容詞后,生成的圖像確實(shí)符合描述:

圖片

即便是快速生成的圖像,也能迅速控制風(fēng)格,如“梵高風(fēng)格的畫(huà)”or“動(dòng)畫(huà)”等:

圖片

當(dāng)然,偶爾也有失敗案例,最典型的就是生成帶字母要求的圖像時(shí),顯示不出正常字母來(lái):

圖片

作者們正在努力整理代碼,表示不久之后就會(huì)開(kāi)源。

圖片

作者介紹

作者們均來(lái)自圖賓根大學(xué)和英偉達(dá)。

圖片

一作Axel Sauer,圖賓根大學(xué)博士生,此前在卡爾斯魯厄理工學(xué)院(KIT)獲得本碩學(xué)位。目前感興趣的研究方向是深度生成模型、神經(jīng)網(wǎng)絡(luò)架構(gòu)和實(shí)證研究。

圖片

二作Tero Karras,英偉達(dá)杰出研究科學(xué)家,對(duì)英偉達(dá)RTX技術(shù)有重要貢獻(xiàn),也是StyleGAN系列的主要作者,主要研究方向是計(jì)算機(jī)圖形學(xué)和實(shí)時(shí)渲染。

圖片

不過(guò)在這波GAN掀起的“文藝復(fù)興”浪潮下,也出現(xiàn)了“StyleGAN時(shí)代迎來(lái)終結(jié)”的聲音。

有網(wǎng)友感慨:

在這之前,最新StyleGAN生成的圖像總能讓我們大吃一驚,然而現(xiàn)在它給我們的印象只剩下“快”了。

圖片

你認(rèn)為GAN還能撼動(dòng)擴(kuò)散模型的統(tǒng)治地位嗎?

論文地址:https://arxiv.org/abs/2301.09515

項(xiàng)目地址:https://github.com/autonomousvision/stylegan-t

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2023-01-08 13:22:03

模型

2010-01-18 08:59:13

Windows 7系統(tǒng)速度

2023-01-05 13:11:20

模型

2021-09-01 22:59:31

Canvas標(biāo)簽語(yǔ)法

2024-02-26 10:30:27

Biome開(kāi)發(fā)前端

2024-01-22 06:55:09

BiomeWeb 應(yīng)用Prettier

2025-04-15 09:24:00

芯片AI技術(shù)

2021-12-06 09:35:38

英偉達(dá)人工智能軟件

2022-10-27 08:31:31

架構(gòu)

2022-06-08 09:20:58

Python基準(zhǔn)測(cè)試編程語(yǔ)言

2025-03-18 12:30:00

RubyJava語(yǔ)言

2009-08-08 08:56:15

Chrome瀏覽器Chrome 3.0google

2021-06-11 09:21:20

開(kāi)源SQL Parser詞法語(yǔ)法分析器

2024-04-10 12:58:00

數(shù)據(jù)訓(xùn)練

2024-04-10 09:28:23

2020-01-07 10:14:38

Python程序員腳本語(yǔ)言

2023-03-26 12:21:31

GAN模型網(wǎng)絡(luò)

2016-12-14 12:02:01

StormHadoop大數(shù)據(jù)

2017-02-14 14:20:02

StormHadoop

2021-11-11 06:57:00

PythonPyPy程序
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)