從4K到16K僅用一張圖像訓(xùn)練,首個(gè)單樣本超高分辨率圖像合成框架來(lái)了
論文鏈接:https://arxiv.org/pdf/2202.13799.pdf
傳統(tǒng)生成模型通常從相對(duì)較小的圖像數(shù)據(jù)集中,基于 patch 分布學(xué)習(xí)生成大型圖像,這種方法很難生成視覺(jué)上連貫的圖像。OUR-GAN 以低分辨率生成視覺(jué)上連貫的圖像,然后通過(guò)超分辨率逐漸提升分辨率。由于 OUR-GAN 從真實(shí)的 UHR 圖像中學(xué)習(xí),它可以合成具有精細(xì)細(xì)節(jié)的大規(guī)模形狀,同時(shí)保持遠(yuǎn)距離連貫性。
OUR-GAN 應(yīng)用無(wú)縫銜接的子區(qū)域超分辨率,在內(nèi)存受限的條件下合成 4K 或更高分辨率的 UHR 圖像,并解決了邊界不連續(xù)的問(wèn)題。此外,OUR-GAN 通過(guò)向特征圖添加垂直位置嵌入來(lái)提高多樣性和視覺(jué)連貫性。在 ST4K 和 RAISE 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:與現(xiàn)有方法相比,OUR-GAN 表現(xiàn)出更高的保真度、視覺(jué)連貫性和多樣性。
我們來(lái)看一下 OUR-GAN 的合成效果,下圖(上)是 OUR-GAN 訓(xùn)練使用的單個(gè) 4K 圖像,(下)是 OUR-GAN 合成的 16K (16384 x 10912) 圖像。
以下幾組是 OUR-GAN 合成的 4K 風(fēng)景圖:
OUR-GAN 成功合成了具有多種圖案的高質(zhì)量紋理圖像:
one-shot 超分辨率生成對(duì)抗網(wǎng)絡(luò)
OUR-GAN 框架
OUR-GAN 通過(guò)三個(gè)步驟合成占用有限 GPU 內(nèi)存的 UHR 圖像,如下圖 3 所示。首先,OURGAN 生成低分辨率的全局結(jié)構(gòu)。然后通過(guò) in-memory 超分辨率在內(nèi)存限制內(nèi)盡可能提高分辨率。最后,OURGAN 通過(guò)逐個(gè)子區(qū)域應(yīng)用超分辨率來(lái)進(jìn)一步提高超出內(nèi)存限制的分辨率來(lái)合成 UHR 圖像。
超分辨率模型的輸出分辨率受限于訓(xùn)練圖像的分辨率。然而,ZSSR 和 MZSR 已經(jīng)證明,通過(guò)利用信息的內(nèi)部循環(huán),超分辨率模型可以生成比訓(xùn)練圖像大 2 到 4 倍的圖像。
全局結(jié)構(gòu)生成
從單個(gè)訓(xùn)練圖像中學(xué)習(xí)合成具有全局連貫形狀的不同圖像,是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。該研究的初步實(shí)驗(yàn)比較了可以用單個(gè)圖像訓(xùn)練的多個(gè)模型。其中,HP-VAE-GAN 表現(xiàn)出比其他模型更高的多樣性,但全局一致性不足。因此,該研究選擇 HP-VAE-GAN 作為第一步的基線模型,并通過(guò)應(yīng)用垂直坐標(biāo)卷積來(lái)提高全局一致性。HP-VAE-GAN 通過(guò)基于分層 patch 的生成方案合成圖像,如方程式 (1)-(3),其中、
和
分別表示在尺度 m 下的生成器、合成圖像和高斯噪聲向量。符號(hào)↑代表上采樣。
首先,如等式 (1) 所示,HP-VAE-GAN 從高斯噪聲生成初始圖像,然后如等式 (2)(3) 所示,逐漸增加分辨率。在 1 ≤ m ≤ L 的早期階段,為了多樣性,HP-VAE-GAN 應(yīng)用 patch VAE [19],如方程式 (2),因?yàn)?GAN 模型的多樣性由于模式崩潰問(wèn)題而受到限制。然而,在 L < m ≤ M 的后期階段,為了細(xì)節(jié)的保真,它應(yīng)用了 patch GAN [22],如等式 (3)。
in-memory、子區(qū)域級(jí)超分辨率
在第二步和第三步中,OUR-GAN 專(zhuān)注于保真度,并通過(guò)添加精細(xì)細(xì)節(jié)來(lái)提高先前合成圖像的分辨率。在第三步中,OUR-GAN 應(yīng)用子區(qū)域超分辨率以將圖像分辨率提高到超出內(nèi)存限制。這些步驟中最大的技術(shù)挑戰(zhàn)是使用單個(gè)訓(xùn)練圖像學(xué)習(xí)超分辨率模型。該研究通過(guò)預(yù)訓(xùn)練 ESRGAN(一種以良好的輸出質(zhì)量而聞名的超分辨率模型)來(lái)實(shí)現(xiàn)高保真度,然后使用單個(gè)訓(xùn)練圖像對(duì)其進(jìn)行微調(diào)。在之前的工作中,有超分辨率模型,例如 ZSSR 和 MZSR [21],可以從單個(gè)圖像中學(xué)習(xí)。然而,在初步實(shí)驗(yàn)中,預(yù)訓(xùn)練 ESRGAN 表現(xiàn)出比零樣本超分辨率模塊更高的圖像質(zhì)量。該研究使用 DIV2K 和 Flickr2K 數(shù)據(jù)集來(lái)預(yù)訓(xùn)練 ESRGAN。
在第二步中,研究者在先前合成的圖像中加入隨機(jī)噪聲
,然后通過(guò)
中的超分辨率模型
提高分辨率。在第三步中,他們將圖像劃分為子區(qū)域,對(duì)每個(gè)子區(qū)域圖像進(jìn)行超分辨率處理,然后將縮放后的子區(qū)域圖像拼接成一幅更高分辨率的圖像,如圖 5 所示。這樣的分區(qū)超分辨率可以重復(fù)多次,以產(chǎn)生 4K 或更高分辨率的 UHR 圖像。
然而,如果沒(méi)有精心設(shè)計(jì),這種分區(qū)域的超分辨率會(huì)在邊界處表現(xiàn)出不連續(xù)。在以前的工作中,有一些方法可以防止不連續(xù)性。以前的工作表明,不連續(xù)性的主要原因是輸入特征圖周?chē)牧闾畛洌▃ero-padding),并提出了一些補(bǔ)救措施。[28] 應(yīng)用了重疊平鋪(overlap-tile)策略,擴(kuò)展輸入子區(qū)域以阻止邊界處零填充的影響。[12] 通過(guò)仔細(xì)設(shè)計(jì)具有交替卷積和轉(zhuǎn)置卷積的網(wǎng)絡(luò)來(lái)消除零填充。
由于后者需要重新設(shè)計(jì)網(wǎng)絡(luò),因此研究者對(duì)前者進(jìn)行了改進(jìn)。受 Wenjie Luo 等人 (2016) 的啟發(fā),研究者將重疊大小設(shè)置為 ERF 的半徑,如圖 6 所示,它明顯小于 TRF。圖 7 中的實(shí)驗(yàn)結(jié)果表明,等于 ERF 半徑的重疊足以防止不連續(xù)性。ERF 的漸近逼近是 O (√depth), 而 TRF 的漸近逼近是 O (depth),這表明方法的好處是不可忽略的。
研究者比較了沒(méi)有重疊和 ERF 半徑重疊的子區(qū)域超分辨率的結(jié)果。圖 7 顯示了子區(qū)域超分辨率輸出圖像與將圖像整體放大的普通超分辨率輸出圖像之間的差異。圖 7 (a) 表明,在沒(méi)有重疊的情況下,子區(qū)域超分辨率在子區(qū)域邊界處產(chǎn)生顯著差異。然而,重疊的子區(qū)域減弱了這種差異。
實(shí)驗(yàn)結(jié)果
One-shot 4K 非重復(fù)圖像合成下圖 8 展示了 OUR-GAN 生成的 4K 樣本、基線模型以及 ground truth 圖像。
圖 8. OUR-GAN 生成的 4K 樣本、基線模型生成的樣本,以及 ground truth 圖像。
InGAN 未能合成包含大量形狀的可視化超高分辨率圖像,因?yàn)樗峭ㄟ^(guò)重復(fù)從小樣本訓(xùn)練中學(xué)到的小規(guī)模模式來(lái)合成圖像。SinGAN 可以生成大規(guī)模的模式,但是未能捕捉到結(jié)構(gòu)細(xì)節(jié)。然而,OUR-GAN 成功地合成了具有視覺(jué)連貫形狀和精細(xì)細(xì)節(jié)的高質(zhì)量圖像。與其他模型相比,OUR-GAN 合成了最具視覺(jué)沖擊力的圖像。
如下表 1 所示,OUR-GAN 在定量研究中的表現(xiàn)也優(yōu)于其他模型,它在所有配置中得分最高,這表明 OUR-GAN 綜合了全局形狀和局部細(xì)節(jié)的高質(zhì)量圖像。
全局連貫性和多樣性
為了評(píng)估垂直坐標(biāo)卷積的效果,研究者用其他模型替換了 OUR-GAN 的 first step 模型,并比較了合成圖像的差異: SinGAN,ConSinGAN,HP-VAE-GAN,SIV-GAN。
圖 9。
圖 9 展示了生成的圖像。ConSinGAN 和 SIV-GAN 生成的模式多樣性有限,而 HPVAE-GAN 合成的扭曲結(jié)構(gòu)結(jié)合了不相關(guān)的模式。如圖 10 所示,與 HP-VAE-GAN 相比,OUR-GAN 顯著提高了模式的全局一致性,并且與 ConSinGAN 和 SIV-GAN 相比產(chǎn)生了更多樣化的模式。
圖 10: 采用垂直坐標(biāo)卷積的效果。OUR-GAN 通過(guò)垂直坐標(biāo)卷積的空間偏差來(lái)提高視覺(jué)連貫性。
表 2。
表 2 列出了定量評(píng)價(jià)的結(jié)果,OUR-GAN 在定量結(jié)果方面表現(xiàn)良好。OUR-GAN 的 SIFID 分?jǐn)?shù)最低,這表明 OUR-GAN 在學(xué)習(xí)訓(xùn)練圖像的內(nèi)部統(tǒng)計(jì)數(shù)據(jù)方面是有效的。與 LPIPS 的其他基線相比,OUR-GAN 沒(méi)有表現(xiàn)出顯著差異。然而,高 LPIPS 并不總是表明模型產(chǎn)生高質(zhì)量的圖像,因?yàn)樗粦土P視覺(jué)上不協(xié)調(diào)的模式(附錄 H 展示了高 LPIPS 視覺(jué)不協(xié)調(diào)的樣本)。盡管與 HP-VAE-GAN 相比,OUR-GAN 缺乏多樣性,但 OUR-GAN 可以合成視覺(jué)上更為連貫的圖像。
One-shot 高保真度 4K 紋理圖像合成
該研究還評(píng)估了 OUR-GAN 合成高保真 UHR 紋理圖像的性能。OUR-GAN 從 ST4K 紋理圖像和合成 UHR 圖像中學(xué)習(xí),圖 11 中展示了兩個(gè)合成樣本。
更多研究細(xì)節(jié),可參考原論文。