自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CMU聯(lián)手Adobe:GAN模型迎來(lái)預(yù)訓(xùn)練時(shí)代,僅需1%的訓(xùn)練樣本

人工智能 新聞
每次GAN模型都要從頭訓(xùn)練的日子過(guò)去了!最近CMU聯(lián)手Adobe提出了一種新的模型集成策略,讓GAN模型也能用上預(yù)訓(xùn)練,成功解決「判別器過(guò)擬合」這個(gè)老大難問(wèn)題。

進(jìn)入預(yù)訓(xùn)練時(shí)代后,視覺(jué)識(shí)別模型的性能得到飛速發(fā)展,但圖像生成類(lèi)的模型,比如生成對(duì)抗網(wǎng)絡(luò)GAN似乎掉隊(duì)了。

通常GAN的訓(xùn)練都是以無(wú)監(jiān)督的方式從頭開(kāi)始訓(xùn)練,費(fèi)時(shí)費(fèi)力不說(shuō),大型預(yù)訓(xùn)練通過(guò)大數(shù)據(jù)學(xué)習(xí)到的「知識(shí)」都沒(méi)有利用上,豈不是很虧?

而且圖像生成本身就需要能夠捕捉和模擬真實(shí)世界視覺(jué)現(xiàn)象中的復(fù)雜統(tǒng)計(jì)數(shù)據(jù),不然生成出來(lái)的圖片不符合物理世界規(guī)律,直接一眼鑒定為「假」。

圖片

 預(yù)訓(xùn)練模型提供知識(shí)、GAN模型提供生成能力,二者強(qiáng)強(qiáng)聯(lián)合,多是一件美事!

問(wèn)題來(lái)了,哪些預(yù)訓(xùn)練模型、以及如何結(jié)合起來(lái)才能改善GAN模型的生成能力?

最近來(lái)自CMU和Adobe的研究人員在CVPR 2022發(fā)表了一篇文章,通過(guò)「選拔」的方式將預(yù)訓(xùn)練模型與GAN模型的訓(xùn)練相結(jié)合。

圖片

論文鏈接:https://arxiv.org/abs/2112.09130

項(xiàng)目鏈接:https://github.com/nupurkmr9/vision-aided-gan

視頻鏈接:https://www.youtube.com/watch?v=oHdyJNdQ9E4

GAN模型的訓(xùn)練過(guò)程由一個(gè)判別器和一個(gè)生成器組成,其中判別器用來(lái)學(xué)習(xí)區(qū)分真實(shí)樣本和生成樣本的相關(guān)統(tǒng)計(jì)數(shù)據(jù),而生成器的目標(biāo)則是讓生成的圖像與真實(shí)分布盡可能相同。

理想情況下,判別器應(yīng)當(dāng)能夠測(cè)量生成圖像和真實(shí)圖像之間的分布差距。

但在數(shù)據(jù)量十分有限的情況下,直接上大規(guī)模預(yù)訓(xùn)練模型作為判別器,非常容易導(dǎo)致生成器被「無(wú)情碾壓」,然后就「過(guò)擬合」了。

通過(guò)在FFHQ 1k數(shù)據(jù)集上的實(shí)驗(yàn)來(lái)看,即使采用最新的可微分?jǐn)?shù)據(jù)增強(qiáng)方法,判別器仍然會(huì)過(guò)擬合,訓(xùn)練集性能很強(qiáng),但在驗(yàn)證集上表現(xiàn)得很差。

圖片

此外,判別器可能會(huì)關(guān)注那些人類(lèi)無(wú)法辨別但對(duì)機(jī)器來(lái)說(shuō)很明顯的偽裝。 

為了平衡判別器和生成器的能力,研究人員提出將一組不同的預(yù)訓(xùn)練模型的表征集合起來(lái)作為判別器。

 

這種方法有兩個(gè)好處:

1、在預(yù)訓(xùn)練的特征上訓(xùn)練一個(gè)淺層分類(lèi)器是使深度網(wǎng)絡(luò)適應(yīng)小規(guī)模數(shù)據(jù)集的常見(jiàn)方法,同時(shí)可以減少過(guò)擬合。

也就是說(shuō)只要把預(yù)訓(xùn)練模型的參數(shù)固定住,再在頂層加入輕量級(jí)的分類(lèi)網(wǎng)絡(luò)就可以提供穩(wěn)定的訓(xùn)練過(guò)程。

比如上面實(shí)驗(yàn)中的Ours曲線(xiàn),可以看到驗(yàn)證集的準(zhǔn)確率相比StyleGAN2-ADA要提升不少。

2、最近也有一些研究證明了,深度網(wǎng)絡(luò)可以捕獲有意義的視覺(jué)概念,從低級(jí)別的視覺(jué)線(xiàn)索(邊緣和紋理)到高級(jí)別的概念(物體和物體部分)都能捕獲。

建立在這些特征上的判別器可能更符合人類(lèi)的感知能力。

并且將多個(gè)預(yù)訓(xùn)練模型組合在一起后,可以促進(jìn)生成器在不同的、互補(bǔ)的特征空間中匹配真實(shí)的分布。

為了選擇效果最好的預(yù)訓(xùn)練網(wǎng)絡(luò),研究人員首先搜集了多個(gè)sota模型組成一個(gè)「模型銀行」,包括用于分類(lèi)的VGG-16,用于檢測(cè)和分割的Swin-T等。

 

 然后基于特征空間中真實(shí)和虛假圖像的線(xiàn)性分割,提出一個(gè)自動(dòng)的模型搜索策略,并使用標(biāo)簽平滑和可微分的增強(qiáng)技術(shù)來(lái)進(jìn)一步穩(wěn)定模型訓(xùn)練,減少過(guò)擬合。

具體來(lái)說(shuō),就是將真實(shí)訓(xùn)練樣本和生成的圖像的并集分成訓(xùn)練集和驗(yàn)證集。

對(duì)于每個(gè)預(yù)訓(xùn)練的模型,訓(xùn)練一個(gè)邏輯線(xiàn)性判別器來(lái)分類(lèi)樣本是來(lái)自真實(shí)樣本還是生成的,并在驗(yàn)證分割上使用「負(fù)二元交叉熵?fù)p失」測(cè)量分布差距,并返回誤差最小的模型。

一個(gè)較低的驗(yàn)證誤差與更高的線(xiàn)性探測(cè)精度相關(guān),表明這些特征對(duì)于區(qū)分真實(shí)樣本和生成的樣本是有用的,使用這些特征可以為生成器提供更有用的反饋。

研究人員我們用FFHQ和LSUN CAT數(shù)據(jù)集的1000個(gè)訓(xùn)練樣本對(duì)GAN訓(xùn)練進(jìn)行了經(jīng)驗(yàn)驗(yàn)證。

 

圖片結(jié)果顯示,用預(yù)訓(xùn)練模型訓(xùn)練的GAN具有更高的線(xiàn)性探測(cè)精度,一般來(lái)說(shuō),可以實(shí)現(xiàn)更好的FID指標(biāo)。

為了納入多個(gè)現(xiàn)成模型的反饋,文中還探索了兩種模型選擇和集成策略

1)K-fixed模型選擇策略,在訓(xùn)練開(kāi)始時(shí)選擇K個(gè)最好的現(xiàn)成模型并訓(xùn)練直到收斂;

2)K-progressive模型選擇策略,在固定的迭代次數(shù)后迭代選擇并添加性能最佳且未使用的模型。

實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),與K-fixed策略相比,progressive的方式具有更低的計(jì)算復(fù)雜度,也有助于選擇預(yù)訓(xùn)練的模型,從而捕捉到數(shù)據(jù)分布的不同。例如,通過(guò)progressive策略選擇的前兩個(gè)模型通常是一對(duì)自監(jiān)督和監(jiān)督模型。

文章中的實(shí)驗(yàn)主要以progressive為主。

最終的訓(xùn)練算法首先訓(xùn)練一個(gè)具有標(biāo)準(zhǔn)對(duì)抗性損失的GAN。

 

圖片給定一個(gè)基線(xiàn)生成器,可以使用線(xiàn)性探測(cè)搜索到最好的預(yù)訓(xùn)練模型,并在訓(xùn)練中引入損失目標(biāo)函數(shù)。

在K-progressive策略中,在訓(xùn)練了與可用的真實(shí)訓(xùn)練樣本數(shù)量成比例的固定迭代次數(shù)后,把一個(gè)新的視覺(jué)輔助判別器被添加到前一階段具有最佳訓(xùn)練集FID的快照中。

在訓(xùn)練過(guò)程中,通過(guò)水平翻轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng),并使用可微分的增強(qiáng)技術(shù)和單側(cè)標(biāo)簽平滑作為正則化項(xiàng)。

還可以觀察到,只使用現(xiàn)成的模型作為判別器會(huì)導(dǎo)致散度(divergence),而原始判別器和預(yù)訓(xùn)練模型的組合則可以改善這一情況。

最終實(shí)驗(yàn)展示了在FFHQ、LSUN CAT和LSUN CHURCH數(shù)據(jù)集的訓(xùn)練樣本從1k到10k變化時(shí)的結(jié)果。

 

圖片在所有設(shè)置中,F(xiàn)ID都能獲得顯著提升,證明了該方法在有限數(shù)據(jù)場(chǎng)景中的有效性。

為了定性分析該方法和StyleGAN2-ADA之間的差異,根據(jù)兩個(gè)方法生成的樣本質(zhì)量來(lái)看,文中提出的新方法能夠提高最差樣本的質(zhì)量,特別是對(duì)于FFHQ和LSUN CAT

 

圖片當(dāng)我們逐步增加下一個(gè)判別器時(shí),可以看到線(xiàn)性探測(cè)對(duì)預(yù)訓(xùn)練模型的特征的準(zhǔn)確性在逐漸下降,也就是說(shuō)生成器更強(qiáng)了。

 

圖片總的來(lái)說(shuō),在只有1萬(wàn)個(gè)訓(xùn)練樣本的情況下,該方法在LSUN CAT上的FID與在160萬(wàn)張圖像上訓(xùn)練的StyleGAN2性能差不多。

 

圖片而在完整的數(shù)據(jù)集上,該方法在LSUN的貓、教堂和馬的類(lèi)別上提高了1.5到2倍的FID。

圖片

?

作者Richard Zhang在加州大學(xué)伯克利分校獲得了博士學(xué)位,在康奈爾大學(xué)獲得了本科和碩士學(xué)位。主要研究興趣包括計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、圖形和圖像處理,經(jīng)常通過(guò)實(shí)習(xí)或大學(xué)與學(xué)術(shù)研究人員合作。

 

圖片作者Jun-Yan Zhu是卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)學(xué)院的機(jī)器人學(xué)院的助理教授,同時(shí)在計(jì)算機(jī)科學(xué)系和機(jī)器學(xué)習(xí)部門(mén)任職,主要研究領(lǐng)域包括計(jì)算機(jī)視覺(jué)、計(jì)算機(jī)圖形學(xué)、機(jī)器學(xué)習(xí)和計(jì)算攝影。

在加入CMU之前,他曾是Adobe Research的研究科學(xué)家。本科畢業(yè)于清華大學(xué),博士畢業(yè)于加州大學(xué)伯克利分校,然后在MIT CSAIL做博士后。

 

? 圖片 ?

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2022-11-01 14:50:00

數(shù)據(jù)計(jì)算

2023-02-01 13:39:46

2025-03-11 08:37:42

2020-07-29 12:16:12

預(yù)訓(xùn)練自訓(xùn)練神經(jīng)網(wǎng)絡(luò)

2017-12-26 13:53:31

深度學(xué)習(xí)遷移學(xué)習(xí)

2022-10-19 14:03:45

開(kāi)源AI

2017-08-09 10:02:12

NMT神經(jīng)網(wǎng)絡(luò)自然語(yǔ)言處理

2023-06-12 07:50:45

2024-11-04 00:24:56

2023-06-26 07:10:51

2022-07-07 14:06:39

LiBai模型庫(kù)

2022-03-23 10:07:00

Adobe人像訓(xùn)練

2021-09-26 10:47:12

預(yù)訓(xùn)練模型GPT

2024-06-12 09:52:49

2020-03-30 16:00:46

開(kāi)源技術(shù) 趨勢(shì)

2020-03-17 09:42:00

谷歌開(kāi)源機(jī)器學(xué)習(xí)

2023-02-01 09:46:29

2024-12-16 18:20:32

2025-04-23 15:23:25

AI模型代碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)