自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI新論文打敗GAN達(dá)到SOTA!這個(gè)霸氣擴(kuò)散模型是噱頭還是干貨

新聞 人工智能
近日,OpenAI的兩個(gè)研究員發(fā)表了一篇新文章,稱他們的擴(kuò)散模型在圖像生成領(lǐng)域比GAN更強(qiáng)。然而,霸榜多年的GAN這么輕易就會(huì)落敗么?

 FaceAPP最近又小火了一把,小編也下載體驗(yàn)了一下。

OpenAI新論文打敗GAN達(dá)到SOTA!這個(gè)霸氣擴(kuò)散模型是噱頭還是干貨

還行,有點(diǎn)兒意思。

FaceAPP的背后便是基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的圖像生成技術(shù)。

自從2014年誕生以來(lái),尤其是在人臉生成方面的Deepfake,GAN幾乎完全主導(dǎo)了圖像生成領(lǐng)域的研究和應(yīng)用。

但是,GAN很難訓(xùn)練,并且容易出現(xiàn)模式崩潰等問(wèn)題。

OpenAI新論文打敗GAN達(dá)到SOTA!這個(gè)霸氣擴(kuò)散模型是噱頭還是干貨

別人用Deepfake「模型」生成的視頻和我自己用Deepfake「魔性」生成的視頻

于是,新的SOTA模型誕生了

針對(duì)GAN的這些問(wèn)題,OpenAI的兩位研究人員Prafulla Dhariwal和Alex Nichol便著眼于其他體系架構(gòu)。

在他們發(fā)布的最新論文「擴(kuò)散模型在圖像合成方面擊敗了GAN」中,稱提出的擴(kuò)散模型架構(gòu)解決了GAN的缺點(diǎn),并且在圖像生成任務(wù)中擊敗了GAN,達(dá)到了SOTA的水平。

OpenAI新論文打敗GAN達(dá)到SOTA!這個(gè)霸氣擴(kuò)散模型是噱頭還是干貨

不得不說(shuō),他們?cè)陬}目中便用到「Beat」(擊?。┻@個(gè)詞,野心還是很大的??!

「在ImageNet 512x512上獲得了3.85 FID。不僅可以保持與BigGAN相當(dāng)?shù)乃疁?zhǔn),還可以將每個(gè)采樣的前向傳播降低到25個(gè),同時(shí)對(duì)分布有更好的覆蓋?!?/p>

OpenAI新論文打敗GAN達(dá)到SOTA!這個(gè)霸氣擴(kuò)散模型是噱頭還是干貨

無(wú)意中搜了一下,全文有15個(gè)「state-of-the-art」,除了個(gè)別兩三個(gè)是形容GAN(不是被打敗,就是有轉(zhuǎn)折),其他基本全是形容他們自己新模型的。不管這個(gè)是不是SOTA,反正作者覺(jué)得肯定是了。

時(shí)間回溯到三個(gè)月前

非常有趣的是,在引用中,有一篇論文的作者同樣是這兩位。

今年2月的時(shí)候他們發(fā)表了一篇名為「改進(jìn)的降噪擴(kuò)散概率模型」的論文,這其中也有和GAN的對(duì)比,不過(guò)這個(gè)時(shí)候還沒(méi)有將GAN「擊敗」。

沒(méi)想到,三個(gè)月后他們?cè)谛碌恼撐闹芯捅硎咀约撼晒α耍磥?lái)效率還挺快的。

OpenAI新論文打敗GAN達(dá)到SOTA!這個(gè)霸氣擴(kuò)散模型是噱頭還是干貨

同樣是1億個(gè)參數(shù)的模型,BigGAN-Deep在FID上的表現(xiàn)上要明顯優(yōu)于作者此時(shí)訓(xùn)練的DDPM。不過(guò)這二位用2.7億個(gè)參數(shù)訓(xùn)練的模型強(qiáng)行勝利了一波。

去噪擴(kuò)散概率模型(DDPM)——改進(jìn)版

擴(kuò)散模型是另一類深度學(xué)習(xí)模型,在圖像生成任務(wù)中表現(xiàn)也很出色。

與GAN學(xué)會(huì)學(xué)習(xí)將隨機(jī)噪聲圖像映射到訓(xùn)練分布中的某個(gè)點(diǎn)不同,擴(kuò)散模型會(huì)獲取噪聲圖像,然后執(zhí)行一系列降噪步驟,逐步減少噪聲并生成屬于訓(xùn)練數(shù)據(jù)分布的圖像。

DDPM可以更快地采樣并獲得更好的對(duì)數(shù)似然率,同時(shí)對(duì)采樣質(zhì)量的影響很小。而通過(guò)增加訓(xùn)練計(jì)算量可以帶來(lái)更好的樣本質(zhì)量和對(duì)數(shù)似然性。

這二位作者表示:「我們驚奇地發(fā)現(xiàn),經(jīng)過(guò)改進(jìn)的模型可以使用更少的采樣次數(shù)」。也難怪作者會(huì)把25次的前向采樣作為重點(diǎn)宣傳對(duì)像。

進(jìn)一步了解可以參考論文:
https://arxiv.org/pdf/2102.09672.pdf

「全新」的擴(kuò)散模型

三個(gè)月后,Dhariwal和Nichol決定一雪前恥,再次對(duì)擴(kuò)散模型的體系結(jié)構(gòu)進(jìn)行改進(jìn),從而使得模型的性能能夠得到進(jìn)一步提升。

  1. 等比例增加深度與寬度,使模型尺寸相對(duì)恒定。
  2. 增加注意力頭(attention head)的數(shù)量。
  3. 在32×32、16×16和8×8中加入注意力層(attention)。
  4. 使用BigGAN的殘差模塊(residual module)對(duì)激活進(jìn)行上采樣和下采樣。
  5. 調(diào)整殘差連接(residual connections)的尺度。
OpenAI新論文打敗GAN達(dá)到SOTA!這個(gè)霸氣擴(kuò)散模型是噱頭還是干貨

增加注意力頭的數(shù)量或減少每個(gè)頭的通道數(shù)都可以改善FID。

OpenAI新論文打敗GAN達(dá)到SOTA!這個(gè)霸氣擴(kuò)散模型是噱頭還是干貨

經(jīng)過(guò)對(duì)比,模型最后選擇使用128個(gè)基本通道,每個(gè)分辨率2個(gè)殘差模塊,多分辨率注意力和BigGAN上/下采樣,并且訓(xùn)練模型進(jìn)行700K次迭代,每個(gè)注意力頭部64個(gè)通道。

OpenAI新論文打敗GAN達(dá)到SOTA!這個(gè)霸氣擴(kuò)散模型是噱頭還是干貨

對(duì)于ImageNet 128×128模型,隨著分類器梯度的變化,樣本質(zhì)量也會(huì)發(fā)生變化。梯度在1.0以上時(shí)可以在準(zhǔn)確率和召回率之間得到一個(gè)平滑的trade off。

OpenAI新論文打敗GAN達(dá)到SOTA!這個(gè)霸氣擴(kuò)散模型是噱頭還是干貨

BigGAN-deep截?cái)嘧兓瘯r(shí)的trade off。

結(jié)果與評(píng)估

OpenAI的擴(kuò)散模型在每項(xiàng)任務(wù)中都得到了最高的FID評(píng)分,除一項(xiàng)任務(wù)外的所有任務(wù)也都得到了最高的sFID評(píng)分。

改進(jìn)的模型結(jié)構(gòu)在LSUN和ImageNet 64×64上可以得到SOTA的圖像生成結(jié)果。

對(duì)于更高分辨率的ImageNet,模型要優(yōu)于最佳的GAN。此時(shí)模型可以獲得類似于GAN的感知質(zhì)量,同時(shí)保持較高的覆蓋率(以召回率衡量),甚至只需要25次擴(kuò)散??磥?lái)作者對(duì)這25次前向傳播的結(jié)果是真的十分滿意啊。

OpenAI新論文打敗GAN達(dá)到SOTA!這個(gè)霸氣擴(kuò)散模型是噱頭還是干貨

生成模型的樣本質(zhì)量之間的比較。ADM是指文中的擴(kuò)散模型,ADM-G則是加上分類器的。

OpenAI新論文打敗GAN達(dá)到SOTA!這個(gè)霸氣擴(kuò)散模型是噱頭還是干貨

左邊是BigGAN-deep模型的結(jié)果,中間是OpenAI擴(kuò)散模型的結(jié)果,右邊是原始訓(xùn)練集中的圖像。

上面的圖像給人的是差不多的,但是研究人員解釋說(shuō),擴(kuò)散模型從訓(xùn)練集中獲得了更多的信息:

「雖然樣本的感知質(zhì)量相似,但是擴(kuò)散模型包含的內(nèi)容比GAN要多,例如鴕鳥(niǎo)頭部的特寫(xiě),單只的火烈鳥(niǎo),不同角度的芝士漢堡以及沒(méi)有人握著的魚(yú)?!?/p>

作者的結(jié)論

擴(kuò)散模型與GAN相比,可以獲得更好的樣本質(zhì)量。

經(jīng)過(guò)改進(jìn)的體系結(jié)構(gòu)足以在無(wú)條件圖像生成任務(wù)上實(shí)現(xiàn)SOTA,分類器引導(dǎo)技術(shù)使模型可以進(jìn)一步提高類條件任務(wù)的樣本質(zhì)量。

擴(kuò)散模型可以減少GAN與擴(kuò)散模型之間的采樣用時(shí)的差距,但是在采樣過(guò)程中仍然需要多次前向傳播。

最后,通過(guò)將引導(dǎo)與上采樣相結(jié)合,可以使高分辨率條件下圖像合成的結(jié)果達(dá)到SOTA。

此時(shí),又是一個(gè)轉(zhuǎn)折

其實(shí)作者自己也承認(rèn),現(xiàn)在的擴(kuò)散模型在訓(xùn)練計(jì)算量上要高于GAN,采樣速度也不如GAN,而且在單步模型上無(wú)法與GAN相競(jìng)爭(zhēng)。

最重要的是,文章中的分類器引導(dǎo)技術(shù)僅限于被標(biāo)記的數(shù)據(jù)集,并且作者并沒(méi)有提供有效的策略在未標(biāo)記的數(shù)據(jù)集中做準(zhǔn)確性和多樣性之間的trade off。

網(wǎng)友也評(píng)論說(shuō)「從計(jì)算角度看,無(wú)論是在內(nèi)存還是在步數(shù)上,擴(kuò)散模型都要比GAN的消耗大得多?!?/p>

OpenAI新論文打敗GAN達(dá)到SOTA!這個(gè)霸氣擴(kuò)散模型是噱頭還是干貨

這么看來(lái),GAN在短時(shí)間內(nèi)依然會(huì)稱霸圖像生成領(lǐng)域。

 

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-10-17 14:15:00

模型AI

2022-12-25 12:57:00

模型自然學(xué)習(xí)

2021-12-30 10:11:38

模型人工智能深度學(xué)習(xí)

2018-10-16 09:15:02

區(qū)塊鏈福布斯美聯(lián)社

2021-08-18 11:35:41

hackbench 參數(shù)優(yōu)化阿里云

2021-03-01 14:05:50

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2025-01-03 15:39:02

2024-05-28 14:36:32

AI編碼場(chǎng)景

2012-04-01 09:44:22

云計(jì)算云成本

2025-01-13 08:20:00

AI模型訓(xùn)練

2023-04-13 15:55:00

AI開(kāi)源

2018-05-12 09:32:37

云計(jì)算

2025-01-13 00:00:00

AI模型訓(xùn)練

2023-08-25 13:21:56

論文模型

2018-04-26 10:43:28

2025-02-25 09:30:00

2021-05-11 09:13:08

服務(wù)器存儲(chǔ)數(shù)據(jù)中心

2017-04-11 11:02:22

Gram-CTC單系統(tǒng)語(yǔ)音

2024-03-27 10:20:31

模型場(chǎng)景

2023-12-13 13:49:00

模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)