自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GAN的反擊:朱俊彥CVPR新作GigaGAN,出圖速度秒殺Stable Diffusion

人工智能 新聞
在文生圖領(lǐng)域,擴散模型似乎已經(jīng)一統(tǒng)天下,讓曾經(jīng)也風(fēng)頭無兩的 GAN 顯得有些過時。但兩相比較,GAN 依然存在不可磨滅的優(yōu)勢。這使得一些研究者在這一方向上持續(xù)努力,并取得了非常實用的成果。相關(guān)論文已被 CVPR 2023 接收。

圖像生成是當前 AIGC 領(lǐng)域最熱門的方向之一。近期發(fā)布的圖像生成模型如 DALL?E 2、Imagen、Stable Diffusion 等等,開創(chuàng)了圖像生成的新時代,實現(xiàn)了前所未有的圖像質(zhì)量和模型靈活性水平。擴散模型也成為目前占據(jù)主導(dǎo)地位的范式。然而,擴散模型依賴于迭代推理,這是一把雙刃劍,因為迭代方法可以實現(xiàn)具有簡單目標的穩(wěn)定訓(xùn)練,但推理過程需要高昂的計算成本。

在擴散模型之前,生成對抗網(wǎng)絡(luò)(GAN)是圖像生成模型中常用的基礎(chǔ)架構(gòu)。相比于擴散模型,GAN 通過單個前向傳遞生成圖像,因此本質(zhì)上是更高效的,但由于訓(xùn)練過程的不穩(wěn)定性,擴展 GAN 需要仔細調(diào)整網(wǎng)絡(luò)架構(gòu)和訓(xùn)練因素。因此,GAN 擅長對單個或多個對象類進行建模,但擴展到復(fù)雜數(shù)據(jù)集(更不用說現(xiàn)實世界)則極具挑戰(zhàn)性。因此,超大型模型、數(shù)據(jù)和計算資源現(xiàn)在都專用于擴散模型和自回歸模型。

但作為一種高效的生成方法,許多研究者并沒有完全放棄 GAN 方法。例如,最近英偉達提出了 StyleGAN-T 模型;港中文等用基于 GAN 的方法?生成流暢視頻?,這些都是 CV 研究者在 GAN 上做的進一步嘗試。

現(xiàn)在,在一篇 CVPR 2023 論文中,來自 POSTECH、卡耐基梅隆大學(xué)和 Adobe 研究院的研究者們聯(lián)合探究了關(guān)于 GAN 的幾個重要問題,包括:

  • GAN 能否繼續(xù)擴大規(guī)模并從大量資源中受益,GAN 遇到瓶頸了嗎?
  • 是什么阻止了 GAN 的進一步擴展,我們能否克服這些障礙?

圖片

  • 論文鏈接:https://arxiv.org/abs/2303.05511
  • 項目鏈接:https://mingukkang.github.io/GigaGAN/

值得注意的是,CycleGAN 的主要作者、曾獲 2018 年 ACM SIGGRAPH 最佳博士論文獎的朱俊彥是這篇 CVPR 論文的第二作者。

該研究首先使用 StyleGAN2 進行實驗,并觀察到簡單地擴展主干網(wǎng)絡(luò)會導(dǎo)致訓(xùn)練不穩(wěn)定?;诖?,研究者確定了幾個關(guān)鍵問題,并提出了一種在增加模型容量的同時穩(wěn)定訓(xùn)練的技術(shù)。

首先,該研究通過保留一組濾波器(filter)并采用特定于樣本的線性組合來有效地擴展生成器的容量。該研究還采用了擴散上下文(diffusion context)中常用的幾種技術(shù),并證實它們?yōu)?GAN 帶來了類似的好處。例如,將自注意力(僅圖像)和交叉注意力(圖像 - 文本)與卷積層交織在一起可以提高模型性能。

該研究還重新引入了多尺度訓(xùn)練,并提出一種新方案來改進圖像 - 文本對齊和生成輸出的低頻細節(jié)。多尺度訓(xùn)練允許基于 GAN 的生成器更有效地使用低分辨率塊中的參數(shù),從而實現(xiàn)了更好的圖像 - 文本對齊和圖像質(zhì)量。經(jīng)過仔細調(diào)整后,該研究提出了十億參數(shù)的新模型 GigaGAN,并在大型數(shù)據(jù)集(例如 LAION2B-en)上實現(xiàn)了穩(wěn)定和可擴展的訓(xùn)練,實驗結(jié)果如下圖 1 所示。

圖片

此外,該研究還采用了多階段方法 [14, 104],首先以 64 × 64 的低分辨率生成圖像,然后再上采樣到 512 × 512 分辨率。這兩個網(wǎng)絡(luò)是模塊化的,并且足夠強大,能夠以即插即用的方式使用。

該研究表明,基于文本條件的 GAN 上采樣網(wǎng)絡(luò)可以用作基礎(chǔ)擴散模型的高效且更高質(zhì)量的上采樣器,如下圖 2 和圖 3 所示。

圖片

上述改進使 GigaGAN 遠遠超越了以前的 GAN:比 StyleGAN2 大 36 倍,比 StyleGAN-XL 和 XMC-GAN 大 6 倍。雖然 GigaGAN 十億(1B)的參數(shù)量仍然低于近期的大型合成模型,例如 Imagen (3.0B)、DALL?E 2 (5.5B) 和 Parti (20B),但研究者表示他們尚未觀察到關(guān)于模型大小的質(zhì)量飽和。

GigaGAN 在 COCO2014 數(shù)據(jù)集上實現(xiàn)了 9.09 的零樣本 FID,低于 DALL?E 2、Parti-750M 和 Stable Diffusion。


此外,與擴散模型和自回歸模型相比,GigaGAN 具有三大實用優(yōu)勢。首先,它的速度快了幾十倍,在 0.13 秒內(nèi)生成了 512 像素的圖像(圖 1)。其次,它可以在 3.66 秒內(nèi)合成 4k 分辨率的超高分辨率圖像。第三,它具有可控的潛在向量空間,適用于經(jīng)過充分研究的可控圖像合成應(yīng)用,例如風(fēng)格混合(圖 6)、prompt 插值(圖 7)和 prompt 混合(圖 8)。


圖片

圖片

該研究成功地在數(shù)十億現(xiàn)實世界圖像上訓(xùn)練了基于 GAN 的十億參數(shù)規(guī)模模型 GigaGAN。這表明 GAN 仍然是文本到圖像合成的可行選擇,研究人員們應(yīng)考慮將其用于未來的積極擴展。

方法概覽

研究者訓(xùn)練了一個生成器 G (z, c),在給定一個潛在編碼 z~N (0, 1)∈R^128 和文本調(diào)節(jié)信號 c 的情況下,預(yù)測一個圖像 x∈R^(H×W×3)。他們使用一個判別器 D (x, c) 來判斷生成的圖像的真實性,與訓(xùn)練數(shù)據(jù)庫 D 中的樣本相比較,后者包含圖像 - 文本對。

盡管 GAN 可以成功地在單類和多類數(shù)據(jù)集上生成真實的圖像,但在互聯(lián)網(wǎng)圖像上進行開放式文本條件合成仍然面臨挑戰(zhàn)。研究者假設(shè),目前的限制源于其對卷積層的依賴。也就是說,同樣的卷積濾波器被用來為圖像所有位置上的所有文本條件進行通用圖像合成函數(shù)建模,這是個挑戰(zhàn)。有鑒于此,研究者試圖通過根據(jù)輸入條件動態(tài)選擇卷積濾波器,并通過注意力機制捕捉長程依賴,為參數(shù)化注入更多的表現(xiàn)力。

GigaGAN 高容量文本 - 圖像生成器如下圖 4 所示。首先,研究者使用預(yù)訓(xùn)練的 CLIP 模型和學(xué)習(xí)過的編碼器 T 來提取文本嵌入。使用交叉注意力將局部文本描述符提供給生成器。全局文本描述符,連同潛在編碼 z,被送入風(fēng)格映射網(wǎng)絡(luò) M 以產(chǎn)生風(fēng)格碼 w。風(fēng)格碼使用論文中的風(fēng)格 - 自適應(yīng)內(nèi)核選擇調(diào)節(jié)主生成器,如右側(cè)所示。

生成器通過將中間特征轉(zhuǎn)換為 RGB 圖像來輸出一個圖像金字塔。為了達到更高的容量,研究者在每個尺度上使用多個注意力層和卷積層(附錄 A2)。他們還使用了一個單獨的上采樣器模型,該模型未在此圖中顯示。

圖片

判別器由兩個分支組成,用于處理圖像和文本調(diào)節(jié) t_D。文本分支對文本的處理與生成器類似(圖 4)。圖像分支接收一個圖像金字塔,并對每個圖像尺度進行獨立預(yù)測。此外,預(yù)測是在下采樣層的所有后續(xù)尺度上進行的,這使得它成為一個多尺度輸入、多尺度輸出(MS-I/O)的判別器。

圖片

實驗結(jié)果

在論文中,作者記錄了五個不同的實驗。

在第一個實驗中,他們通過逐個納入每個技術(shù)組件來展示所提方法的有效性。

圖片

在第二個實驗中,他們測試了模型文生圖的能力,結(jié)果顯示,GigaGAN 表現(xiàn)出與 Stable Diffusion(SD-v1.5)相當?shù)?FID,同時產(chǎn)生的結(jié)果比擴散或自回歸模型快得多。

圖片

在第三個實驗中,他們將 GigaGAN 與基于蒸餾的擴散模型進行比較,結(jié)果顯示,GigaGAN 能比基于蒸餾的擴散模型更快地合成更高質(zhì)量的圖像。

圖片

在第四個實驗中,他們驗證了 GigaGAN 的上采樣器在有條件和無條件的超分辨率任務(wù)中相比其他上采樣器的優(yōu)勢。

圖片

圖片

最后,他們展示了自己提出的大規(guī)模 GAN 模型仍然享受 GAN 的連續(xù)和解糾纏的潛在空間操作,從而實現(xiàn)了新的圖像編輯模式。圖表請參見上文中的圖 6 和圖 8。


責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-06-12 10:25:45

模型訓(xùn)練

2020-03-23 15:10:49

人工智能機器學(xué)習(xí)技術(shù)

2024-03-21 13:59:06

圖像研究

2023-03-04 21:51:27

圖像研究

2022-11-10 15:45:02

模型APP

2023-11-17 15:50:27

AI訓(xùn)練

2023-03-26 12:21:31

GAN模型網(wǎng)絡(luò)

2024-09-14 14:09:40

2023-01-10 16:08:04

人工智能擴散模型

2023-01-18 16:13:32

模型

2022-11-14 14:08:39

計算機模型

2023-05-26 15:53:48

MidjourneyAI圖像

2023-07-14 13:34:34

StableDiffusion模型

2023-01-08 13:22:03

模型

2023-01-31 11:06:01

模型算力

2023-02-10 21:12:41

GPUmacOSStable

2023-10-24 19:27:01

AI模型

2023-11-22 11:22:57

AI模型

2022-12-26 13:40:59

機器學(xué)習(xí)

2024-12-06 10:21:04

點贊
收藏

51CTO技術(shù)棧公眾號