自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

華人博士提出模型SwinIR,33%的參數(shù)量就碾壓圖像修復(fù)領(lǐng)域sota

新聞 人工智能
SwinIR使用Transformer力壓CNN,又在圖像修復(fù)領(lǐng)域屠榜,模型參數(shù)量降低67%,再也不要唯參數(shù)量論英雄了!

 [[421559]]

參數(shù)量和模型的性能有絕對(duì)關(guān)系嗎?蘇黎世華人博士提出SwinIR模型,實(shí)驗(yàn)結(jié)果告訴你,越小的模型還可能更強(qiáng)!SwinIR使用Transformer力壓CNN,又在圖像修復(fù)領(lǐng)域屠榜,模型參數(shù)量降低67%,再也不要唯參數(shù)量論英雄了!

圖像修復(fù)(image restoration)是一個(gè)受到長(zhǎng)期關(guān)注和研究的最基礎(chǔ)的CV問(wèn)題,它能夠從低質(zhì)量的圖像,例如縮略圖、有噪音的圖或是壓縮圖像中恢復(fù)為原始高質(zhì)量圖像。

但目前圖像修復(fù)領(lǐng)域的sota方法都是基于卷積神經(jīng)網(wǎng)絡(luò)CNN的,但是很少有人嘗試使用Transformer,盡管ViT在高級(jí)視覺(jué)任務(wù)中早已占據(jù)排行榜多年。

來(lái)自蘇黎世聯(lián)邦理工學(xué)院的華人博士提出一個(gè)適用于圖像修復(fù)的模型SwinIR,主要包括淺層特征提取、深層特征提取和高質(zhì)量圖像重建三部分。

實(shí)驗(yàn)結(jié)果證明SwinIR的性能比目前sota方法提高了0.14-0.45dB,并且參數(shù)量還降低了67%。

華人博士提出模型SwinIR,33%的參數(shù)量就碾壓圖像修復(fù)領(lǐng)域sota

論文地址:https://arxiv.org/abs/2108.10257

項(xiàng)目地址:https://github.com/JingyunLiang/SwinIR

大多數(shù)基于CNN的方法側(cè)重于精細(xì)的架構(gòu)設(shè)計(jì),如residual learning和dense learning,通過(guò)巧妙的模型設(shè)計(jì)來(lái)提升性能,增大模型容量。

雖然與傳統(tǒng)的基于模型的方法相比CNN的性能有了顯著的提高,但通常會(huì)遇到兩個(gè)源于卷積層的基本問(wèn)題:

1)圖像和卷積核之間的交互與內(nèi)容無(wú)關(guān)。使用相同的卷積核來(lái)恢復(fù)不同的圖像區(qū)域可能不是最佳選擇;

2)由于CNN更關(guān)注局部特征,所以卷積對(duì)于長(zhǎng)依賴性、全局的特征建模是效果不好。

在這種情況下,很容易想到Transformer來(lái)替代CNN。Transformer的自注意力機(jī)制能夠很好地捕獲上下文之間的全局交互,并在多個(gè)視覺(jué)任務(wù)上具有出了良好的表現(xiàn)。

然而,用于圖像修復(fù)的ViT需要將輸入圖像分割為具有固定大?。ɡ?8×48)的patch,并對(duì)每個(gè)部分進(jìn)行單獨(dú)處理。

這種策略不可避免地會(huì)產(chǎn)生兩個(gè)缺點(diǎn):

1)邊界像素不能利用塊外的相鄰像素進(jìn)行圖像恢復(fù);

2)恢復(fù)的圖像可能會(huì)在每個(gè)圖像塊周圍引入邊界偽影。

雖然這個(gè)問(wèn)題可以通過(guò)patch重疊來(lái)緩解,但它會(huì)帶來(lái)額外的計(jì)算負(fù)擔(dān)。

模型設(shè)計(jì)

SwinIR的設(shè)計(jì)基于Swin Transformer,包括三個(gè)部分:

華人博士提出模型SwinIR,33%的參數(shù)量就碾壓圖像修復(fù)領(lǐng)域sota

1)淺層特征抽取shallow feature extraction

淺層特征提取模塊采用卷積層提取淺層特征,并將淺層特征直接傳輸?shù)街貥?gòu)模塊,以保留低頻信息。

2)深層特征抽取deep feature extraction

深層特征提取模塊主要由residual Swin Transformer Block(RSTB)組成組成,每個(gè)塊利用多個(gè)Swin Transformer layer(STL)進(jìn)行局部注意力和交叉窗口的交互。此外,還在塊的末尾添加一個(gè)卷積層以增強(qiáng)特征,并使用殘差連接為特征聚合提供快捷方式,也就是說(shuō)RSTB由多個(gè)STL和一個(gè)卷積層共同構(gòu)成殘差塊,

3)高質(zhì)量圖像重建high-quality(HQ) image reconstructi

重建模塊是最后一步,融合了淺層和深層特征用了恢復(fù)高質(zhì)量的圖像。

在實(shí)驗(yàn)方面,作者首先研究了通道數(shù),RSTB數(shù)目和STL數(shù)目對(duì)結(jié)果的影響??梢杂^察到PSNR與這三個(gè)超參數(shù)正相關(guān)。對(duì)于信道數(shù),雖然性能不斷提高,但參數(shù)量呈二次增長(zhǎng)。為了平衡性能和模型尺寸,在剩下的實(shí)驗(yàn)中選擇180作為通道數(shù)。對(duì)于RSTB數(shù)和層數(shù),性能增益逐漸飽和,所以后續(xù)實(shí)驗(yàn)設(shè)置為6以獲得一個(gè)相對(duì)較小的模型。

華人博士提出模型SwinIR,33%的參數(shù)量就碾壓圖像修復(fù)領(lǐng)域sota

和經(jīng)典的圖像超分辨率(super-resolution, SR)模型對(duì),包括DBPN、RCAN、RRDB、SAN、IGNN、HAN、NLSA和IPT??梢钥闯?,當(dāng)在DIV2K數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí),SwinIR在幾乎所有五個(gè)基準(zhǔn)數(shù)據(jù)集的所有比例因子上都取得了最佳性能,在Manga109在4倍縮放上的最大PSNR增益達(dá)到0.26dB。

不過(guò)需要注意的是,RCAN和HAN引入了通道和空間注意力,IGNN提出了自適應(yīng)patch特征聚合,NLSA基于非局部注意機(jī)制。所有這些基于CNN的注意機(jī)制的表現(xiàn)都不如所提出的基于Transformer的SwinIR,這也表明了文中所提出模型的有效性。

華人博士提出模型SwinIR,33%的參數(shù)量就碾壓圖像修復(fù)領(lǐng)域sota

當(dāng)在更大的數(shù)據(jù)集(DIV2K+Flickr2K)上訓(xùn)練SwinIR時(shí),性能進(jìn)一步大幅度提高,也實(shí)現(xiàn)了比基于Transformer的模型IPT更好的精度,達(dá)到0.47dB。即使IPT在訓(xùn)練中使用ImageNet(超過(guò)一百三十萬(wàn)圖像),并且具有超過(guò)一億的參數(shù)。相比之下,即使與基于CNN的sota模型相比,SwinIR的參數(shù)也很少(1500萬(wàn)-4430萬(wàn))。

在運(yùn)行時(shí)方面,與基于CNN的代表性的模型RCAN相比,IPT和SwinIR在1024×1024分別需要約0.2、4.5和1.1秒。

實(shí)驗(yàn)結(jié)果

從可視化結(jié)果來(lái)看,SwinIR可以恢復(fù)高頻細(xì)節(jié)并減輕模糊瑕疵,并產(chǎn)生銳利且自然的邊緣。

相比之下,大多數(shù)基于CNN的方法會(huì)產(chǎn)生模糊的圖像,甚至是不正確的紋理。與基于CNN的方法相比,IPT生成的圖像更好,但它存在圖像失真和邊界偽影。

華人博士提出模型SwinIR,33%的參數(shù)量就碾壓圖像修復(fù)領(lǐng)域sota

在圖像降噪任務(wù)上,比較的方法包括傳統(tǒng)模型BM3D和WNNM,基于CNN的模型DnCNN,IR-CNN,F(xiàn)FDNet,N3Net,NLRN,F(xiàn)OC-Net,RNAN,MWCNN和DRUNet??梢钥吹絊winIR模型比所有方法都強(qiáng)。

華人博士提出模型SwinIR,33%的參數(shù)量就碾壓圖像修復(fù)領(lǐng)域sota

特別是它在具有100個(gè)高分辨率測(cè)試圖像的大型Urban100數(shù)據(jù)集上通過(guò)最先進(jìn)的DRUNet模型,最高可達(dá)0.3dB,并且SwinIR只有1200萬(wàn)的參數(shù),而DRUNet有三億參數(shù),也就能側(cè)面證明SwinIR的架構(gòu)在學(xué)習(xí)用于圖像恢復(fù)的特征表示方面是高效的。

華人博士提出模型SwinIR,33%的參數(shù)量就碾壓圖像修復(fù)領(lǐng)域sota

SwinIR模型可以去除嚴(yán)重的噪聲干擾并保留高頻圖像細(xì)節(jié),從而獲得更清晰的邊緣和更自然的紋理。相比之下,其他方法要么過(guò)于平滑,要么過(guò)于銳利,無(wú)法恢復(fù)豐富的紋理。

 

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-05-15 12:32:29

GPT-4開(kāi)源

2022-05-16 14:47:01

MIT模型

2022-11-30 16:08:42

2021-07-06 10:37:37

模型人工智能深度學(xué)習(xí)

2024-01-16 17:17:30

模型訓(xùn)練

2025-01-26 11:00:00

2023-04-28 15:53:55

框架模型

2022-01-14 14:50:52

算法模型技術(shù)

2025-01-22 10:15:00

2021-03-01 14:05:50

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2022-02-24 13:36:21

3D模型AI

2024-02-02 17:04:35

UCLALLMGPT-4

2024-10-12 10:57:39

2024-12-24 10:30:00

2023-06-30 13:01:26

2023-10-15 13:15:12

博士研究

2023-10-13 13:12:44

2022-11-08 15:05:49

模型參數(shù)

2025-02-10 08:52:00

2023-09-18 09:36:58

微軟模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)