自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<sub id="733pa"></sub>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

首個(gè)超大規(guī)模GAN模型！生成速度比Diffusion快20+倍，0.13秒出圖，最高支持1600萬(wàn)像素

作者：新智元 2023-03-26 12:21:31

隨著OpenAI發(fā)布DALL-E 2，自回歸和擴(kuò)散模型一夜之間成為大規(guī)模生成模型的新標(biāo)準(zhǔn)，而在此之前，生成對(duì)抗網(wǎng)絡(luò)（GAN）一直都是主流選擇，并衍生出StyleGAN等技術(shù)。

??AIGC爆火的背后，從技術(shù)的角度來(lái)看，是圖像生成模型的架構(gòu)發(fā)生了巨大的變化。

隨著OpenAI發(fā)布DALL-E 2，自回歸和擴(kuò)散模型一夜之間成為大規(guī)模生成模型的新標(biāo)準(zhǔn)，而在此之前，生成對(duì)抗網(wǎng)絡(luò)（GAN）一直都是主流選擇，并衍生出StyleGAN等技術(shù)。

從GAN切換到擴(kuò)散模型的架構(gòu)轉(zhuǎn)變也引出了一個(gè)問(wèn)題：能否通過(guò)擴(kuò)大GAN模型的規(guī)模，比如說(shuō)在 LAION 這樣的大型數(shù)據(jù)集中進(jìn)一步提升性能嗎？

最近，針對(duì)增加StyleGAN架構(gòu)容量會(huì)導(dǎo)致不穩(wěn)定的問(wèn)題，來(lái)自浦項(xiàng)科技大學(xué)（韓國(guó)）、卡內(nèi)基梅隆大學(xué)和Adobe研究院的研究人員提出了一種全新的生成對(duì)抗網(wǎng)絡(luò)架構(gòu)GigaGAN，打破了模型的規(guī)模限制，展示了 GAN 仍然可以勝任文本到圖像合成模型。

論文鏈接：https://arxiv.org/abs/2303.05511

項(xiàng)目鏈接：https://mingukkang.github.io/GigaGAN/

GigaGAN有三大優(yōu)勢(shì)。

1. 它在推理時(shí)速度更快，相比同量級(jí)參數(shù)的Stable Diffusion-v1.5，在512分辨率的生成速度從2.9秒縮短到0.13秒。

2. 可以合成高分辨率的圖像，例如，在3.66秒內(nèi)合成1600萬(wàn)像素的圖像。

3. 支持各種潛空間編輯應(yīng)用程序，如潛插值、樣式混合和向量算術(shù)操作等。

GAN到極限了嗎？

最近發(fā)布的一系列模型，如DALL-E 2、Imagen、Parti和Stable Diffusion，開(kāi)創(chuàng)了圖像生成的新時(shí)代，在圖像質(zhì)量和模型靈活性方面達(dá)到了前所未有的水平。

現(xiàn)在占主導(dǎo)地位的范式「擴(kuò)散模型」和「自回歸模型」，都依賴于迭代推理這把雙刃劍，因?yàn)榈椒軌蛞院?jiǎn)單的目標(biāo)進(jìn)行穩(wěn)定的訓(xùn)練，但在推理過(guò)程中會(huì)產(chǎn)生更高的計(jì)算成本。

與此形成對(duì)比的是生成對(duì)抗網(wǎng)絡(luò)（GAN），只需要一次forward pass即可生成圖像，因此本質(zhì)上是更高效的。

雖然GAN模型主導(dǎo)了生成式建模的「前一個(gè)時(shí)代」，但由于訓(xùn)練過(guò)程中的不穩(wěn)定性，對(duì)GAN進(jìn)行擴(kuò)展需要仔細(xì)調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練考慮，因此GANs雖然在為單個(gè)或多個(gè)對(duì)象類別建模方面表現(xiàn)出色，但擴(kuò)展到復(fù)雜的數(shù)據(jù)集上（更不用說(shuō)開(kāi)放世界物體生成了），仍然具有挑戰(zhàn)性。

所以目前超大型的模型、數(shù)據(jù)和計(jì)算資源都主要集中在擴(kuò)散和自回歸模型上。

在這項(xiàng)工作中，研究人員主要解決以下問(wèn)題：

GAN能否繼續(xù)擴(kuò)大規(guī)模并有可能從這些資源中受益？或者說(shuō)GAN已經(jīng)到達(dá)極限了？是什么阻礙了GAN的進(jìn)一步擴(kuò)展？能否克服這些障礙？

穩(wěn)定訓(xùn)練GAN

研究人員首先用StyleGAN2進(jìn)行實(shí)驗(yàn)，觀察到簡(jiǎn)單地?cái)U(kuò)展骨干網(wǎng)會(huì)導(dǎo)致不穩(wěn)定的訓(xùn)練，在確定了幾個(gè)關(guān)鍵問(wèn)題后，提出了在增加模型容量的同時(shí)穩(wěn)定訓(xùn)練的技術(shù)。

首先，通過(guò)保留一個(gè)濾波器庫(kù)（a bank of filters），并采取一個(gè)特定樣本的線性組合來(lái)有效地?cái)U(kuò)展生成器的容量。

改編了幾個(gè)在擴(kuò)散模型上下文中常用的技術(shù)，并確認(rèn)它們可以為GANs帶來(lái)了類似的性能提升，例如將自注意力機(jī)制（僅圖像）和交叉注意力（圖像-文本）與卷積層交織在一起可以提高性能。

此外，研究人員重新引入了多尺度訓(xùn)練（multi-scaletraining），找到了一個(gè)新的方案可以改善圖像-文本對(duì)齊和生成輸出的低頻細(xì)節(jié)。

多尺度訓(xùn)練可以讓基于GAN的生成器更有效地使用低分辨率塊中的參數(shù)，從而具有更好的圖像-文本對(duì)齊和圖像質(zhì)量。

生成器

GigaGAN的生成器由文本編碼分支（text encoding branch）、樣式映射網(wǎng)絡(luò)（style mapping network）、多尺度綜合網(wǎng)絡(luò)（multi-scale synthesis network）組成，并輔以穩(wěn)定注意力（stable attention）和自適應(yīng)核選擇（adaptive kernel selection）。

在文本編碼分支中，首先使用一個(gè)預(yù)先訓(xùn)練好的 CLIP 模型和一個(gè)學(xué)習(xí)的注意層 T 來(lái)提取文本嵌入，然后將嵌入過(guò)程傳遞給樣式映射網(wǎng)絡(luò) M，生成與 StyleGAN 類似的樣式向量 w

合成網(wǎng)絡(luò)采用樣式編碼作為modulation，以文本嵌入作為注意力來(lái)生成image pyramid，在此基礎(chǔ)上，引入樣本自適應(yīng)核選擇算法，實(shí)現(xiàn)了基于輸入文本條件的卷積核自適應(yīng)選擇。

判別器

與生成器類似，GigaGAN的判別器由兩個(gè)分支組成，分別用于處理圖像和文本條件。

文本分支處理類似于生成器的文本分支；圖像分支接收一個(gè)image pyramid作為輸入并對(duì)每個(gè)圖像尺度進(jìn)行獨(dú)立的預(yù)測(cè)。

公式中引入了多個(gè)額外的損失函數(shù)以促進(jìn)快速收斂。

實(shí)驗(yàn)結(jié)果

對(duì)大規(guī)模文本-圖像合成任務(wù)進(jìn)行系統(tǒng)的、受控的評(píng)估是困難的，因?yàn)榇蠖鄶?shù)現(xiàn)有的模型并不公開(kāi)可用，即使訓(xùn)練代碼可用，從頭開(kāi)始訓(xùn)練一個(gè)新模型的成本也會(huì)過(guò)高。

研究人員選擇在實(shí)驗(yàn)中與Imagen、Latent Diffusion Models（LDM）、Stable Diffusion和Parti進(jìn)行對(duì)比，同時(shí)承認(rèn)在訓(xùn)練數(shù)據(jù)集、迭代次數(shù)、批量大小和模型大小方面存在相當(dāng)大的差異。

對(duì)于定量評(píng)價(jià)指標(biāo)，主要使用Frechet Inception Distance（FID）來(lái)衡量輸出分布的真實(shí)性，并使用CLIP分?jǐn)?shù)來(lái)評(píng)價(jià)圖像-文本對(duì)齊。

文中進(jìn)行了五個(gè)不同的實(shí)驗(yàn)：

1. 通過(guò)逐步納入每個(gè)技術(shù)組件來(lái)展示提出方法的有效性；

2. 文本-圖像合成結(jié)果表明，GigaGAN表現(xiàn)出與穩(wěn)定擴(kuò)散（SD-v1.5）相當(dāng)?shù)腇ID，同時(shí)生成的結(jié)果比擴(kuò)散或自回歸模型快數(shù)百倍；

3. 將GigaGAN與基于蒸餾的擴(kuò)散模型進(jìn)行對(duì)比，顯示GigaGAN可以比基于蒸餾的擴(kuò)散模型更快地合成更高質(zhì)量的圖像；

4. 驗(yàn)證了GigaGAN的上采樣器在有條件和無(wú)條件的超分辨率任務(wù)中比其他上采樣器的優(yōu)勢(shì)；

5. 結(jié)果表明大規(guī)模GANs仍然享有GANs的連續(xù)和分解潛伏空間的操作，實(shí)現(xiàn)了新的圖像編輯模式。

經(jīng)過(guò)調(diào)參，研究人員在大規(guī)模的數(shù)據(jù)集，如LAION2B-en上實(shí)現(xiàn)了穩(wěn)定和可擴(kuò)展的十億參數(shù)GAN（GigaGAN）的訓(xùn)練。

并且該方法采用了多階段的方法，首先在64×64下生成，然后上采樣到512×512，這兩個(gè)網(wǎng)絡(luò)是模塊化的，而且足夠強(qiáng)大，能夠以即插即用的方式使用。

結(jié)果表明，盡管在訓(xùn)練時(shí)從未見(jiàn)過(guò)擴(kuò)散模型的圖像，但基于文本條件的GAN上采樣網(wǎng)絡(luò)可以作為基礎(chǔ)擴(kuò)散模型（如DALL-E 2）的高效、高質(zhì)量的上采樣器。

這些成果加在一起，使得GigaGAN遠(yuǎn)遠(yuǎn)超過(guò)了以前的GAN模型，比StyleGAN2大36倍，比StyleGAN-XL和XMC-GAN大6倍。

雖然GiGAN的10億參數(shù)量仍然低于最近發(fā)布的最大合成模型，如Imagen（3B）、DALL-E 2（5.5B）和Parti（20B），但目前還沒(méi)有觀察到關(guān)于模型大小的質(zhì)量飽和度。

GigaGAN在COCO2014數(shù)據(jù)集上實(shí)現(xiàn)了9.09的zero-shot FID，低于DALL-E 2、Parti-750M和Stable Diffusion的FID

應(yīng)用場(chǎng)景

提示插值（Prompt interpolation）

GigaGAN可以在提示之間平滑地插值，下圖中的四個(gè)角是由同一潛碼生成，但帶有不同的文本提示。

解耦提示混合（Disentangled prompt mixing）

GigaGAN 保留了一個(gè)分離的潛空間，使得能夠?qū)⒁粋€(gè)樣本的粗樣式與另一個(gè)樣本的精細(xì)樣式結(jié)合起來(lái)，并且GigaGAN 可以通過(guò)文本提示直接控制樣式。

粗到精風(fēng)格交換（Coarse-to-fine sytle swapping）

基于 GAN 的模型架構(gòu)保留了一個(gè)分離的潛在空間，使得能夠?qū)⒁粋€(gè)樣本的粗樣式與另一個(gè)樣本的精樣式混合在一起。

參考資料：?

https://mingukkang.github.io/GigaGAN/

責(zé)任編輯：武曉燕來(lái)源：新智元

GAN 模型網(wǎng)絡(luò)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<blockquote id="pvxb8"></blockquote>}