刷榜13個暗光增強(qiáng)基準(zhǔn)!清華大學(xué)聯(lián)合ETH等開源Retinexformer:亮、暗都有細(xì)節(jié)
在增強(qiáng)弱光圖像時,許多深度學(xué)習(xí)算法都是基于Retinex理論的,不過Retinex模型沒有考慮隱藏在黑暗中或由點(diǎn)亮過程引入的損壞。
此外,這些方法通常需要繁瑣的多階段訓(xùn)練管道,并依賴于卷積神經(jīng)網(wǎng)絡(luò),在捕獲長期依賴性方面存在局限性。
來自清華大學(xué)、維爾茨堡大學(xué)、蘇黎世聯(lián)邦理工學(xué)院的研究人員最近在ICCV 2023上發(fā)表了一篇新論文,制定了一個簡單但原理性的單階段Retinex-based框架(ORF)。
圖片
論文鏈接:https://arxiv.org/abs/2303.06705
代碼鏈接:https://github.com/caiyuanhao1998/Retinexformer
ORF首先估計照明信息以照亮低光圖像,然后恢復(fù)損壞以產(chǎn)生增強(qiáng)圖像。
研究人員設(shè)計了一個照明引導(dǎo)Transformer(IGT),利用照明表示直接建模的非本地相互作用的區(qū)域與不同的照明條件,然后將IGT插入ORF以實(shí)現(xiàn)Retinexformer算法。
全面的定量和定性實(shí)驗(yàn)表明,文中提出的Retinexformer在13個基準(zhǔn)數(shù)據(jù)集中顯著優(yōu)于最先進(jìn)的方法;用戶在暗光目標(biāo)檢測方面的研究和應(yīng)用也揭示了該方法潛在的實(shí)用價值。
圖1 Retinexformer 和之前基于Retinex理論的算法對比
目前所有的代碼、模型、訓(xùn)練日志、十三個數(shù)據(jù)集(LOL-v1, LOL-v2-real, LOL-v2-synthetic, SID, SMID, SDSD-in, SDSD-out, MIT Adobe FiveK, LIME, NPE, MEF, DICM, VV)的測試結(jié)果均已開源,研究人員還基于 BasicSR 開發(fā)了一個集成了八大數(shù)據(jù)集的訓(xùn)練框架。
暗光增強(qiáng)簡介
如圖1所示,暗光增強(qiáng)的主要任務(wù)是增強(qiáng)低光圖像的能見度和對比度,同時修復(fù)隱藏在黑暗中或由于提升亮度而引入的噪聲、偽影、顏色畸變等復(fù)雜的退化模式。
圖2 暗光增強(qiáng)任務(wù)示意圖
當(dāng)前的暗光增強(qiáng)算法大體上可以分為三類:樸素方法、傳統(tǒng)感知方法、深度學(xué)習(xí)方法。
樸素方法一般會直接在全局范圍內(nèi)增強(qiáng)整張圖像的亮度和對比度。
經(jīng)典的算法有直方圖均衡化(histogram equalization )和伽馬矯正(Gama Correction)。然而這類算法沒有考慮到光照因素,使得增強(qiáng)后的圖像與真實(shí)光照圖像嚴(yán)重不符。
傳統(tǒng)感知算法大都基于視網(wǎng)膜理論(Retinex Theory),將一張自然圖像解耦為照度圖(Illumination)和反射圖(Reflectance),并將反射圖作為暗光增強(qiáng)后的圖像。
然而這類算法有兩個缺陷:一是假定暗光圖像都是干凈的,不存在噪聲偽影等。然而由于成像設(shè)備的缺陷,暗光圖像常常帶有噪聲;二是這類算法依賴于手工設(shè)計的圖像先驗(yàn),常常需要調(diào)參且表征能力很弱。
現(xiàn)有的深度學(xué)習(xí)方法大多基于卷積神經(jīng)網(wǎng)絡(luò),不擅長于捕獲長程依賴關(guān)系,不利于圖像的修復(fù),有部分深度學(xué)習(xí)算法與視網(wǎng)膜分解理論相結(jié)合。
然而這類算法大都需要一個冗長的流程,采取一個多階段的訓(xùn)練方案,分別訓(xùn)練多個不同的 CNN 來做不同的任務(wù),如解耦彩色圖像、給反射圖去噪、調(diào)整照度圖等;然后將這些訓(xùn)好的 CNN 連接起來進(jìn)行微調(diào)。整個訓(xùn)練過程繁瑣復(fù)雜,費(fèi)時費(fèi)力。
為了解決上述難題,這篇論文的貢獻(xiàn)如下:
1. 提出了首個與視網(wǎng)膜理論相結(jié)合的 Transformer 算法,名為 Retinexformer,以用于暗光增強(qiáng)。
2. 推導(dǎo)了一個單階段視網(wǎng)膜理論框架,名為 ORF(One-stage Retinex-based Framework),不需要繁復(fù)的訓(xùn)練和微調(diào)流程,只需要一個階段端到端的訓(xùn)練即可。
3. 設(shè)計了一種由光照引導(dǎo)的新型多頭自注意機(jī)制,名為 IG-MSA(Illumination-Guided Multi-head Self-Attention,IG-MSA),將光照信息作為關(guān)鍵線索來引導(dǎo)長程依賴關(guān)系的捕獲。
4. 該算法在十三個暗光增強(qiáng)榜單上達(dá)到了更好的定量和定性效果,同時在用戶研究和黑夜目標(biāo)檢測任務(wù)上驗(yàn)證了我們算法的實(shí)用價值。
Retinexformer框架
Retinexformer 采用設(shè)計的 ORF,而 ORF 又由兩部分構(gòu)成:(i) 光照估計器(illumination estimator)和 (ii) 退化修復(fù)器(corruption restorer)。
圖3 本文方法的整體框架
在圖3 (b) 中,研究人員設(shè)計了一個光照引導(dǎo)的 Transformer IGT(Illumination-Guided Transformer)來作為退化修復(fù)器,IGT 的基本單元是光照引導(dǎo)的注意力塊 IGAB (Illumination-Guided Attention Block),IGAB 由兩個層歸一化 LN(Layer Normalization),一個 IG-MSA 和一個前饋網(wǎng)絡(luò) FFN(Feed-Forward Network)組成,其細(xì)節(jié)如圖3 (c) 所示。
2.1 單階段視網(wǎng)膜理論框架
根據(jù)視網(wǎng)膜理論,一個低光圖像 I 可以分解為一個反射圖 R 和一個照度圖 L 的點(diǎn)乘:
圖片
然而這個視網(wǎng)膜模型并沒有考慮噪聲偽影等退化因素。因此,我們將這條公式重寫為:
圖片
分別在反射圖和照度圖上加入了擾動項(xiàng)。那么在提升低光圖像亮度時,上邊等式兩邊會同時點(diǎn)乘一個亮度圖:
圖片
等式右邊第三項(xiàng)便表示隱藏在黑暗中的噪聲偽影,并在提升亮度過程中被進(jìn)一步放大。第二項(xiàng)表示點(diǎn)亮過程造成的失曝,過曝和顏色畸變??蓪ⅲ?)式進(jìn)一步簡化為:
圖片
其中的 C 表示整體的退化項(xiàng)?;冢?)式,可將ORF推導(dǎo)為如下:
圖片
低光圖像和照度先驗(yàn)圖先經(jīng)過光照估計器后的輸出作為退化修復(fù)器的輸入。
2.2 光照引導(dǎo)的 Transformer
如圖3 (a) (ii) 所示,IGT采用一個 encoder-bottleneck-decoder 的 U-型結(jié)構(gòu)。其中最重要的組成部件便是 IG-MSA,光照估計器輸出的增亮特征圖輸入到每一個 IG-MSA 當(dāng)中。在 IG-MSA 當(dāng)中,輸入的特征圖首先被變形為 token,然后被分成 k 個 heads:
圖片
對每個heads,分別將其線性投影為 Q,K,V:
圖片
同時也將增亮特征圖形變成 token:
圖片
然后在每一個 head 計算自相似時,用光照信息作為引導(dǎo):
圖片
我們的 IG-MSA 的計算復(fù)雜度為:
圖片
同比全局的MSA的計算復(fù)雜度:
圖片
我們 IG-MSA 計算復(fù)雜度與輸入尺寸成線性而全局MSA的計算復(fù)雜度與輸入成二次相關(guān)。我們的計算復(fù)雜度明顯更低。
實(shí)驗(yàn)結(jié)果
我們在 LOL-v1, LOL-v2-real, LOL-v2-synthetic, SID, SMID, SDSD-in, SDSD-out, MIT Adobe FiveK 八個數(shù)據(jù)集上開展定量實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1、2所示:
圖片
表1
表2
此處需要補(bǔ)充說明一下,MIT Adobe FiveK 官方只提供了RAW數(shù)據(jù),需要大家自己導(dǎo)出才能得到 RGB 數(shù)據(jù)。
導(dǎo)出有兩種格式,一種是 pro RGB,這種格式不適于人的眼睛來看,但是計算得到的 PSNR 和 SSIM 指標(biāo)都偏高,便于大家報指標(biāo)。
而另一種是 sRGB 格式,這種就是最常見的 RGB 圖像格式,但是這種格式指標(biāo)會比較低,本文采用的就是這種格式,并且已經(jīng)在 repo 里貼心地為大家準(zhǔn)備好了已經(jīng)導(dǎo)出的 sRGB 圖像下載鏈接,可以直接下載使用。
我們在 LOL-v1, LOL-v2-real, LOL-v2-synthetic, SID, SMID, SDSD-in, SDSD-out, MIT Adobe FiveK, LIME, NPE, MEF, DICM, VV 上測試了定性效果,視覺對比如圖4、5、6、7所示
圖4 LOL-v1, LOL-v2-real 和 LOL-v2-synthetic 上的視覺效果對比
圖5 SID 和 SMID 上的視覺效果對比
圖6 SDSD-indoor 和 SDSD-outdoor 上的視覺效果對比
圖7 LIME, NPE, MEF, DICM 和 VV 上的視覺效果對比
另外我們還做了用戶調(diào)查,結(jié)果如表3所示:
表3 用戶調(diào)查結(jié)果
最后,將我們的 Retinexformer 作為預(yù)處理器對暗光圖像進(jìn)行增強(qiáng)以輔助夜間目標(biāo)檢測的效果,在 ExDark 數(shù)據(jù)集上的定量結(jié)果如表4所示:
表4 暗光增強(qiáng)輔助夜間目標(biāo)檢測實(shí)驗(yàn)指標(biāo)
一些暗光增強(qiáng)輔助夜間目標(biāo)檢測的例子如圖8、9、10 所示:
圖8
圖9
圖10
參考資料:
https://zhuanlan.zhihu.com/p/657927878