CMU聯(lián)手Adobe:GAN模型迎來(lái)預(yù)訓(xùn)練時(shí)代,僅需1%的訓(xùn)練樣本
進(jìn)入預(yù)訓(xùn)練時(shí)代后,視覺(jué)識(shí)別模型的性能得到飛速發(fā)展,但圖像生成類(lèi)的模型,比如生成對(duì)抗網(wǎng)絡(luò)GAN似乎掉隊(duì)了。
通常GAN的訓(xùn)練都是以無(wú)監(jiān)督的方式從頭開(kāi)始訓(xùn)練,費(fèi)時(shí)費(fèi)力不說(shuō),大型預(yù)訓(xùn)練通過(guò)大數(shù)據(jù)學(xué)習(xí)到的「知識(shí)」都沒(méi)有利用上,豈不是很虧?
而且圖像生成本身就需要能夠捕捉和模擬真實(shí)世界視覺(jué)現(xiàn)象中的復(fù)雜統(tǒng)計(jì)數(shù)據(jù),不然生成出來(lái)的圖片不符合物理世界規(guī)律,直接一眼鑒定為「假」。
預(yù)訓(xùn)練模型提供知識(shí)、GAN模型提供生成能力,二者強(qiáng)強(qiáng)聯(lián)合,多是一件美事!
問(wèn)題來(lái)了,哪些預(yù)訓(xùn)練模型、以及如何結(jié)合起來(lái)才能改善GAN模型的生成能力?
最近來(lái)自CMU和Adobe的研究人員在CVPR 2022發(fā)表了一篇文章,通過(guò)「選拔」的方式將預(yù)訓(xùn)練模型與GAN模型的訓(xùn)練相結(jié)合。
論文鏈接:https://arxiv.org/abs/2112.09130
項(xiàng)目鏈接:https://github.com/nupurkmr9/vision-aided-gan
視頻鏈接:https://www.youtube.com/watch?v=oHdyJNdQ9E4
GAN模型的訓(xùn)練過(guò)程由一個(gè)判別器和一個(gè)生成器組成,其中判別器用來(lái)學(xué)習(xí)區(qū)分真實(shí)樣本和生成樣本的相關(guān)統(tǒng)計(jì)數(shù)據(jù),而生成器的目標(biāo)則是讓生成的圖像與真實(shí)分布盡可能相同。
理想情況下,判別器應(yīng)當(dāng)能夠測(cè)量生成圖像和真實(shí)圖像之間的分布差距。
但在數(shù)據(jù)量十分有限的情況下,直接上大規(guī)模預(yù)訓(xùn)練模型作為判別器,非常容易導(dǎo)致生成器被「無(wú)情碾壓」,然后就「過(guò)擬合」了。
通過(guò)在FFHQ 1k數(shù)據(jù)集上的實(shí)驗(yàn)來(lái)看,即使采用最新的可微分?jǐn)?shù)據(jù)增強(qiáng)方法,判別器仍然會(huì)過(guò)擬合,訓(xùn)練集性能很強(qiáng),但在驗(yàn)證集上表現(xiàn)得很差。
此外,判別器可能會(huì)關(guān)注那些人類(lèi)無(wú)法辨別但對(duì)機(jī)器來(lái)說(shuō)很明顯的偽裝。
為了平衡判別器和生成器的能力,研究人員提出將一組不同的預(yù)訓(xùn)練模型的表征集合起來(lái)作為判別器。
這種方法有兩個(gè)好處:
1、在預(yù)訓(xùn)練的特征上訓(xùn)練一個(gè)淺層分類(lèi)器是使深度網(wǎng)絡(luò)適應(yīng)小規(guī)模數(shù)據(jù)集的常見(jiàn)方法,同時(shí)可以減少過(guò)擬合。
也就是說(shuō)只要把預(yù)訓(xùn)練模型的參數(shù)固定住,再在頂層加入輕量級(jí)的分類(lèi)網(wǎng)絡(luò)就可以提供穩(wěn)定的訓(xùn)練過(guò)程。
比如上面實(shí)驗(yàn)中的Ours曲線(xiàn),可以看到驗(yàn)證集的準(zhǔn)確率相比StyleGAN2-ADA要提升不少。
2、最近也有一些研究證明了,深度網(wǎng)絡(luò)可以捕獲有意義的視覺(jué)概念,從低級(jí)別的視覺(jué)線(xiàn)索(邊緣和紋理)到高級(jí)別的概念(物體和物體部分)都能捕獲。
建立在這些特征上的判別器可能更符合人類(lèi)的感知能力。
并且將多個(gè)預(yù)訓(xùn)練模型組合在一起后,可以促進(jìn)生成器在不同的、互補(bǔ)的特征空間中匹配真實(shí)的分布。
為了選擇效果最好的預(yù)訓(xùn)練網(wǎng)絡(luò),研究人員首先搜集了多個(gè)sota模型組成一個(gè)「模型銀行」,包括用于分類(lèi)的VGG-16,用于檢測(cè)和分割的Swin-T等。
然后基于特征空間中真實(shí)和虛假圖像的線(xiàn)性分割,提出一個(gè)自動(dòng)的模型搜索策略,并使用標(biāo)簽平滑和可微分的增強(qiáng)技術(shù)來(lái)進(jìn)一步穩(wěn)定模型訓(xùn)練,減少過(guò)擬合。
具體來(lái)說(shuō),就是將真實(shí)訓(xùn)練樣本和生成的圖像的并集分成訓(xùn)練集和驗(yàn)證集。
對(duì)于每個(gè)預(yù)訓(xùn)練的模型,訓(xùn)練一個(gè)邏輯線(xiàn)性判別器來(lái)分類(lèi)樣本是來(lái)自真實(shí)樣本還是生成的,并在驗(yàn)證分割上使用「負(fù)二元交叉熵?fù)p失」測(cè)量分布差距,并返回誤差最小的模型。
一個(gè)較低的驗(yàn)證誤差與更高的線(xiàn)性探測(cè)精度相關(guān),表明這些特征對(duì)于區(qū)分真實(shí)樣本和生成的樣本是有用的,使用這些特征可以為生成器提供更有用的反饋。
研究人員我們用FFHQ和LSUN CAT數(shù)據(jù)集的1000個(gè)訓(xùn)練樣本對(duì)GAN訓(xùn)練進(jìn)行了經(jīng)驗(yàn)驗(yàn)證。
結(jié)果顯示,用預(yù)訓(xùn)練模型訓(xùn)練的GAN具有更高的線(xiàn)性探測(cè)精度,一般來(lái)說(shuō),可以實(shí)現(xiàn)更好的FID指標(biāo)。
為了納入多個(gè)現(xiàn)成模型的反饋,文中還探索了兩種模型選擇和集成策略
1)K-fixed模型選擇策略,在訓(xùn)練開(kāi)始時(shí)選擇K個(gè)最好的現(xiàn)成模型并訓(xùn)練直到收斂;
2)K-progressive模型選擇策略,在固定的迭代次數(shù)后迭代選擇并添加性能最佳且未使用的模型。
實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),與K-fixed策略相比,progressive的方式具有更低的計(jì)算復(fù)雜度,也有助于選擇預(yù)訓(xùn)練的模型,從而捕捉到數(shù)據(jù)分布的不同。例如,通過(guò)progressive策略選擇的前兩個(gè)模型通常是一對(duì)自監(jiān)督和監(jiān)督模型。
文章中的實(shí)驗(yàn)主要以progressive為主。
最終的訓(xùn)練算法首先訓(xùn)練一個(gè)具有標(biāo)準(zhǔn)對(duì)抗性損失的GAN。
給定一個(gè)基線(xiàn)生成器,可以使用線(xiàn)性探測(cè)搜索到最好的預(yù)訓(xùn)練模型,并在訓(xùn)練中引入損失目標(biāo)函數(shù)。
在K-progressive策略中,在訓(xùn)練了與可用的真實(shí)訓(xùn)練樣本數(shù)量成比例的固定迭代次數(shù)后,把一個(gè)新的視覺(jué)輔助判別器被添加到前一階段具有最佳訓(xùn)練集FID的快照中。
在訓(xùn)練過(guò)程中,通過(guò)水平翻轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng),并使用可微分的增強(qiáng)技術(shù)和單側(cè)標(biāo)簽平滑作為正則化項(xiàng)。
還可以觀察到,只使用現(xiàn)成的模型作為判別器會(huì)導(dǎo)致散度(divergence),而原始判別器和預(yù)訓(xùn)練模型的組合則可以改善這一情況。
最終實(shí)驗(yàn)展示了在FFHQ、LSUN CAT和LSUN CHURCH數(shù)據(jù)集的訓(xùn)練樣本從1k到10k變化時(shí)的結(jié)果。
在所有設(shè)置中,F(xiàn)ID都能獲得顯著提升,證明了該方法在有限數(shù)據(jù)場(chǎng)景中的有效性。
為了定性分析該方法和StyleGAN2-ADA之間的差異,根據(jù)兩個(gè)方法生成的樣本質(zhì)量來(lái)看,文中提出的新方法能夠提高最差樣本的質(zhì)量,特別是對(duì)于FFHQ和LSUN CAT
當(dāng)我們逐步增加下一個(gè)判別器時(shí),可以看到線(xiàn)性探測(cè)對(duì)預(yù)訓(xùn)練模型的特征的準(zhǔn)確性在逐漸下降,也就是說(shuō)生成器更強(qiáng)了。
總的來(lái)說(shuō),在只有1萬(wàn)個(gè)訓(xùn)練樣本的情況下,該方法在LSUN CAT上的FID與在160萬(wàn)張圖像上訓(xùn)練的StyleGAN2性能差不多。
而在完整的數(shù)據(jù)集上,該方法在LSUN的貓、教堂和馬的類(lèi)別上提高了1.5到2倍的FID。
?
作者Richard Zhang在加州大學(xué)伯克利分校獲得了博士學(xué)位,在康奈爾大學(xué)獲得了本科和碩士學(xué)位。主要研究興趣包括計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、圖形和圖像處理,經(jīng)常通過(guò)實(shí)習(xí)或大學(xué)與學(xué)術(shù)研究人員合作。
作者Jun-Yan Zhu是卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)學(xué)院的機(jī)器人學(xué)院的助理教授,同時(shí)在計(jì)算機(jī)科學(xué)系和機(jī)器學(xué)習(xí)部門(mén)任職,主要研究領(lǐng)域包括計(jì)算機(jī)視覺(jué)、計(jì)算機(jī)圖形學(xué)、機(jī)器學(xué)習(xí)和計(jì)算攝影。
在加入CMU之前,他曾是Adobe Research的研究科學(xué)家。本科畢業(yè)于清華大學(xué),博士畢業(yè)于加州大學(xué)伯克利分校,然后在MIT CSAIL做博士后。
? ?