人工智能算法基于注意力機(jī)制的單圖像超分辨率方法區(qū)分紋理和平滑
人工智能算法基于注意力機(jī)制的單圖像超分辨率方法區(qū)分紋理和平滑摘要: 單圖像超分辨率(SISR)的主要挑戰(zhàn)是恢復(fù)高頻細(xì)節(jié),如微小紋理。然而,大多數(shù)最先進(jìn)的方法缺乏識(shí)別高頻區(qū)域的特定模塊,導(dǎo)致輸出圖像模糊。我們提出了一種基于注意力的方法來(lái)區(qū)分紋理區(qū)域和平滑區(qū)域。在定位高頻細(xì)節(jié)的位置之后,執(zhí)行高頻補(bǔ)償。該方法可以與先前提出的SISR網(wǎng)絡(luò)合并。通過(guò)提供高頻增強(qiáng),實(shí)現(xiàn)了更好的性能和視覺(jué)效果。我們還提出了由DenseRes塊組成的自己的SISR網(wǎng)絡(luò)。該塊提供了組合低級(jí)功能和高級(jí)功能的有效方法。廣泛的基準(zhǔn)評(píng)估表明,我們提出的方法比SISR中最先進(jìn)的工作有了顯著的改進(jìn)。
人工智能算法基于注意力機(jī)制的單圖像超分辨率方法區(qū)分紋理和平滑介紹:?jiǎn)螆D像超分辨率(SISR)的任務(wù)是從單個(gè)低分辨率(LR)輸入圖像推斷出高分辨率(HR)圖像。這是一個(gè)非常不適合的問(wèn)題,因?yàn)樵诘屯V波和下采樣期間,諸如微小紋理的高頻信息會(huì)丟失。因此,SISR是一對(duì)多映射。我們的任務(wù)是找到最合理的HR圖像,盡可能地恢復(fù)微小的紋理。
為了從LR圖像中恢復(fù)HR圖像,需要大的接收?qǐng)鰜?lái)從LR圖像中獲取更多的上下文信息。使用更深的網(wǎng)絡(luò)是增加感受野的更好方法。深度網(wǎng)絡(luò)的一個(gè)缺點(diǎn)是消失梯度問(wèn)題,這使得網(wǎng)絡(luò)難以訓(xùn)練。他等人。 [1]使用剩余學(xué)習(xí)框架來(lái)簡(jiǎn)化網(wǎng)絡(luò)培訓(xùn)。跳過(guò)連接是另一種通過(guò)網(wǎng)絡(luò)增強(qiáng)梯度和信息流的解決方案。低級(jí)特征包含有效信息,可用于重建HR圖像。 SISR將受益于不同層面的集體信息。
SISR的難點(diǎn)在于恢復(fù)高頻細(xì)節(jié),例如微小的紋理。輸出圖像和原始圖像之間的均方誤差(MSE)通常用作訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的損失函數(shù)。然而,在追求高峰值信噪比(PSNR)的過(guò)程中,MSE將返回許多可能解決方案的平均值,因此輸出圖像看起來(lái)模糊且難以置信。為了恢復(fù)高頻細(xì)節(jié),已經(jīng)提出了鼓勵(lì)的感知損失[2]網(wǎng)絡(luò)產(chǎn)生其特征表示相似的圖像,從而產(chǎn)生更清晰的圖像。 Ledig在al。 [3],[4]結(jié)合了對(duì)抗性網(wǎng)絡(luò),感知損失和紋理?yè)p失,以鼓勵(lì)輸出圖像恢復(fù)高頻細(xì)節(jié),如微小紋理。但是所有這些網(wǎng)絡(luò)并沒(méi)有明確地知道高頻細(xì)節(jié)的位置,他們只是試圖盲目地恢復(fù)紋理。因此,這些網(wǎng)絡(luò)的性能并不令人滿(mǎn)意。
人工智能算法基于注意力機(jī)制的單圖像超分辨率方法區(qū)分紋理和平滑貢獻(xiàn):為了解決這些問(wèn)題,首先,基于將每個(gè)層連接到每個(gè)后續(xù)層的denseNet [5],我們提出了一個(gè)新的塊,稱(chēng)為DenseRes塊,由殘余構(gòu)建塊(Resblock)[1]組成。每個(gè)Resblock的輸出都連接到每個(gè)其他Resblock,從而增強(qiáng)了信息流并避免了重新學(xué)習(xí)冗余功能。使用DenseRes塊,可以緩解梯度消失問(wèn)題,并且網(wǎng)絡(luò)易于訓(xùn)練。其次,我們提供了一種應(yīng)對(duì)高頻細(xì)節(jié)恢復(fù)的注意機(jī)制。受U-net [6]的啟發(fā),用于語(yǔ)義像素分割,我們提出了一種新穎的混合密集連接U-net,以幫助網(wǎng)絡(luò)區(qū)分區(qū)域是否充滿(mǎn)需要修復(fù)的微小紋理或類(lèi)似于插值圖像。它作為一個(gè)特征選擇器,有選擇地增強(qiáng)高頻功能。因此,紋理可以盡可能地恢復(fù)。
這是第一次將注意機(jī)制引入SISR。該方法簡(jiǎn)單有效。通過(guò)選擇性地提供高頻增強(qiáng),它減輕了輸出圖像趨于模糊的問(wèn)題。注意機(jī)制可以與先前提出的SISR網(wǎng)絡(luò)結(jié)合。實(shí)現(xiàn)了更高的PSNR和SSIM。另一個(gè)貢獻(xiàn)是我們提出了DenseRes塊,它提供了一種組合低級(jí)功能和高級(jí)功能的有效方法。它有利于恢復(fù)高頻細(xì)節(jié)。
我們?cè)谒膫€(gè)公開(kāi)可用的基準(zhǔn)數(shù)據(jù)集上評(píng)估我們的模型。它在PSNR和結(jié)構(gòu)相似性(SSIM)指數(shù)方面優(yōu)于當(dāng)前最先進(jìn)的方法。至于PSNR,我們分別比VDSR [7]和DRCN [8]提高了0.54 dB和0.52dB。本文的其余部分安排如下:第二部分介紹了包括超分辨率(SR)算法和注意機(jī)制的相關(guān)工作,第三部分提出了網(wǎng)絡(luò)結(jié)構(gòu)。第IV部分提供了實(shí)驗(yàn)結(jié)果和與最新結(jié)果的視覺(jué)比較。我們?cè)诘谖骞?jié)做出結(jié)論。
相關(guān)工作:SISR,諸如bicubic和Lanczos [9]等早期方法易于實(shí)現(xiàn)且速度很快。但是這些方法通常會(huì)產(chǎn)生模糊的結(jié)果,缺乏高頻細(xì)節(jié)。提出了許多強(qiáng)大的方法,如稀疏編碼[10],以建立低分辨率和高分辨率圖像之間的復(fù)雜映射。稀疏編碼[11],[12]基于以下假設(shè):LR字典上的LR圖像的稀疏表示與HR字典上的相應(yīng)高分辨率圖像的稀疏表示相同。
最近,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的算法取得了很好的效果,并且優(yōu)于其他算法。董等人。 [13]用雙三次插值對(duì)輸入圖像進(jìn)行了放大,然后端到端地訓(xùn)練了一個(gè)淺卷積網(wǎng)絡(luò),以學(xué)習(xí)從LR輸入到超分辨率輸出的非線(xiàn)性映射。隨后,各種工作[3],[7],[8]成功地在SISR中使用了深度網(wǎng)絡(luò),并且與淺卷積體系結(jié)構(gòu)相比,獲得了更高的PSNR值。最近,Lim等人。 [14]在NTIRE2017超分辨率挑戰(zhàn)中獲得最佳成績(jī)[15]。他們的網(wǎng)絡(luò)深度高達(dá)32。
在許多用于SISR的深度學(xué)習(xí)算法中,LR圖像通過(guò)雙三次插值作為網(wǎng)絡(luò)的輸入進(jìn)行上采樣[7],[8]。這意味著SISR操作在高分辨率空間中執(zhí)行,這是次優(yōu)的并且增加了計(jì)算復(fù)雜性。代替內(nèi)插圖像,應(yīng)用子像素卷積層[16]以將特征圖上采樣到網(wǎng)絡(luò)的后續(xù)層中的地面實(shí)況的大小。這可以在保留模型容量的同時(shí)減少計(jì)算。
注意機(jī)制:基于注意機(jī)制的方法在一系列任務(wù)中表現(xiàn)出良好的性能。在語(yǔ)音識(shí)別領(lǐng)域,基于注意力的循環(huán)網(wǎng)絡(luò)解碼器用于將語(yǔ)音話(huà)語(yǔ)轉(zhuǎn)錄為字符[17]。 Chorowski等。 [18]用注意機(jī)制提高對(duì)長(zhǎng)輸入語(yǔ)音的魯棒性。侯等人。 [19]提出了一種簡(jiǎn)單但有效的注意機(jī)制來(lái)實(shí)現(xiàn)在線(xiàn)語(yǔ)音識(shí)別。在機(jī)器翻譯領(lǐng)域,Ashish等人。 [20]提出了一個(gè)新的簡(jiǎn)單網(wǎng)絡(luò),完全基于注意力機(jī)制,完全免除了復(fù)發(fā)和控制,在機(jī)器翻譯任務(wù)中表現(xiàn)出卓越的品質(zhì)。其他作品[21],[22]也在關(guān)注的幫助下取得了不錯(cuò)的成績(jī)。在...方面Zhang等人的目的是識(shí)別和定位吸引人類(lèi)注意力的特殊區(qū)域。 [27]設(shè)計(jì)一個(gè)對(duì)稱(chēng)的完全卷積網(wǎng)絡(luò)來(lái)提取顯著性特征。李等人。 [28]使用弱監(jiān)督方法,并使用強(qiáng)監(jiān)督方法獲得可比較的結(jié)果。
提出方法:在本節(jié)中,我們描述了SISR的建議模型體系結(jié)構(gòu)。該網(wǎng)絡(luò)旨在學(xué)習(xí)LR圖像和HR圖像之間的端到端映射函數(shù)F.如圖1所示,我們的網(wǎng)絡(luò)由兩部分組成:旨在恢復(fù)HR圖像的特征重建網(wǎng)絡(luò)和目的是找到要修復(fù)的高頻細(xì)節(jié)的注意力產(chǎn)生網(wǎng)絡(luò)。通過(guò)兩個(gè)網(wǎng)絡(luò)輸出的相乘,我們將得到HR圖像的殘差。
人工智能算法基于注意力機(jī)制的單圖像超分辨率方法區(qū)分紋理和平滑結(jié)論:我們提出了一種基于注意力的方法來(lái)區(qū)分紋理區(qū)域和平滑區(qū)域。當(dāng)定位高頻細(xì)節(jié)的位置時(shí),注意機(jī)構(gòu)用作特征選擇器,其增強(qiáng)高頻特征并抑制平滑區(qū)域中的噪聲。因此,我們的方法避免盲目地恢復(fù)高頻細(xì)節(jié)。我們將該機(jī)制集成到SISR網(wǎng)絡(luò)中,包括SRResNet,VDSR和DRCN,并且這些SISR網(wǎng)絡(luò)的性能都得到了改進(jìn)。因此,驗(yàn)證了注意機(jī)制的有效性。至于特征重建網(wǎng)絡(luò),我們提出了DenseRes塊,它提供了一種組合低級(jí)特征和高級(jí)特征的有效方法。通過(guò)多個(gè)DenseRes塊的級(jí)聯(lián),我們的網(wǎng)絡(luò)具有大的感知域。因此,捕獲來(lái)自L(fǎng)R圖像的大區(qū)域中的有用的上下文信息以恢復(fù)HR圖像中的高頻細(xì)節(jié)。與最先進(jìn)的方法相比,我們的方法具有最佳性能。在未來(lái),我們將探索視頻超分辨率中注意機(jī)制的應(yīng)用,以產(chǎn)生視覺(jué)和數(shù)量上的高質(zhì)量結(jié)果。