基于間距自適應(yīng)查找表的實(shí)時(shí)圖像增強(qiáng)方法
近日,阿里巴巴大淘系技術(shù)與上海交通大學(xué)圖像通信與網(wǎng)絡(luò)工程研究所(簡稱圖像所)合作論文《AdaInt:Learning Adaptive Intervals for 3D Lookup Tables on Real-time Image Enhancement》被國際頂級會(huì)議CVPR2022接收,全部代碼及模型均已開源。
作為計(jì)算機(jī)視覺領(lǐng)域的三大頂級會(huì)議之一,CVPR是每年學(xué)術(shù)界的重要事件之一。CVPR全稱為The Conference on Computer Vision and Pattern Recognition,即計(jì)算機(jī)視覺與模式識(shí)別會(huì)議,是由IEEE主辦的國際最高級別的學(xué)術(shù)會(huì)議。該會(huì)議每年在世界范圍內(nèi)召開一次,討論內(nèi)容涵蓋了與圖像或視頻模式提取或識(shí)別相關(guān)的廣泛主題,常見主題包括對象識(shí)別、目標(biāo)檢測、圖像分割、圖像恢復(fù)和圖像增強(qiáng)等。今年的CVPR會(huì)議接收了來自世界各地總計(jì)8,161份的有效論文投稿,經(jīng)過會(huì)議主席和眾多審稿人的努力,共計(jì)2,067份論文投稿被會(huì)議接收,總接收率約為25.33%。
本文首次提出了通過深度學(xué)習(xí)對輸入圖像自適應(yīng)地學(xué)習(xí)具有非均勻布局的三維顏色查找表,從而對輸入圖像進(jìn)行高效色彩增強(qiáng)的創(chuàng)新性技術(shù),并在學(xué)術(shù)界公開仿真數(shù)據(jù)集上取得了最優(yōu)客觀指標(biāo)(PSNR)的同時(shí)做到了當(dāng)前運(yùn)行速度最快。文中提到的色彩增強(qiáng)技術(shù)具有效果優(yōu)、速度快的特點(diǎn),可做到對4K視頻的實(shí)現(xiàn)高效處理并提升其色彩飽和度對比度,故而適用于實(shí)時(shí)流媒體場景,可用較普惠化的方式幫助改善直播間的畫質(zhì)呈現(xiàn)。
論文地址:https://arxiv.org/abs/2204.13983
項(xiàng)目地址:https://github.com/ImCharlesY/AdaInt
作者單位:大淘寶技術(shù),上海交通大學(xué),大連理工大學(xué)
背景
色彩增強(qiáng)是圖像處理的基本內(nèi)容之一,是相機(jī)成像系統(tǒng)的核心部件之一,并廣泛體現(xiàn)在數(shù)字圖像成像鏈路中的各階段應(yīng)用中。其主要目的是通過處理原始圖像,使其更加符合人的視覺特性或顯示設(shè)備的展示要求。近年來,主流的基于深度學(xué)習(xí)的色彩增強(qiáng)方法將增強(qiáng)流程簡化歸并到單個(gè)全卷積網(wǎng)絡(luò)中。通過數(shù)據(jù)驅(qū)動(dòng)下的端到端學(xué)習(xí),這類方法可以在公開數(shù)據(jù)集上取得先進(jìn)的色彩增強(qiáng)效果。然而,全卷積范式也給網(wǎng)絡(luò)的推理,特別是在超高分辨率的圖像(如4K及以上分辨率)上,帶來了高昂的時(shí)空計(jì)算復(fù)雜度,限制了這些方法的實(shí)際應(yīng)用。
最新的研究工作[1]表明,大部分的色彩增強(qiáng)/美化算子(如白平衡、飽和度控制、色調(diào)映射、對比度調(diào)整、曝光補(bǔ)償?shù)龋儆邳c(diǎn)運(yùn)算的范疇。變換算子的參數(shù)會(huì)根據(jù)圖像整體或局部統(tǒng)計(jì)特性來確定,但變換算子本身對圖像的操作和編輯是位置無關(guān)、像素獨(dú)立的。它們的級聯(lián)在整體效應(yīng)上近似等效為單次三維顏色變換,即一個(gè)的函數(shù)映射式。該映射將輸入圖像中的一個(gè)顏色點(diǎn)映射為同一顏色空間或不同顏色空間的另一個(gè)顏色點(diǎn)。一個(gè)直觀的思路是將一系列增強(qiáng)變換算子合并為單個(gè)顏色變換算子,從而減少一系列變換操作帶來的計(jì)算量,并減小累積誤差對增強(qiáng)效果的影響。
在這種情況下,三維查找表(3D Lookup Tables,3D LUTs)是一種極具價(jià)值的數(shù)據(jù)結(jié)構(gòu),它通過遍歷變換函數(shù)的所有可能輸入顏色組合,記錄對應(yīng)的輸出顏色結(jié)果,可以對一個(gè)復(fù)雜的顏色變換函數(shù)進(jìn)行高效建模,在計(jì)算機(jī)硬件設(shè)計(jì)、相機(jī)成像系統(tǒng)中有廣泛的應(yīng)用。然而,完整輸入空間的遍歷往往帶來沉重的內(nèi)存開銷,更常用的方式是稀疏查找表:對輸入空間進(jìn)行稀疏采樣,僅記錄采樣點(diǎn)的對應(yīng)輸出;對于不被采樣到的點(diǎn),其變換輸出由最近鄰采樣點(diǎn)的輸出線性插值獲得。因此稀疏查找表實(shí)質(zhì)是對原始變換函數(shù)的一種有損近似,其變換能力的損失體現(xiàn)在通過分段線性函數(shù)擬合原始變換函數(shù)中潛在的非線性部分。
工作動(dòng)機(jī)
由于3D LUT的計(jì)算高效性和穩(wěn)定魯棒的顏色變換能力,最新的研究工作[2]結(jié)合了3D LUT的高效計(jì)算性能和深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)大數(shù)據(jù)特征提取能力,通過深度網(wǎng)絡(luò)從圖像中自適應(yīng)地生成稀疏三維查找表以進(jìn)行實(shí)時(shí)色彩增強(qiáng),證明了3D LUT在基于深度學(xué)習(xí)的自適應(yīng)色彩增強(qiáng)中的可行性和有效性。然而,通過深度網(wǎng)絡(luò)自適應(yīng)預(yù)測稀疏3D LUT時(shí),現(xiàn)有工作僅考慮了3D LUT中記錄的輸出值的圖像自適應(yīng)性,而卻對所有不同圖像均采用統(tǒng)一的均勻稀疏點(diǎn)采樣策略(將三維輸入顏色空間等間隔地離散化成三維網(wǎng)格),未能有效考慮到稀疏3D LUT中采樣點(diǎn)在輸入空間中的分布也應(yīng)根據(jù)圖像內(nèi)容自適應(yīng)調(diào)整。這一重要建模能力的缺失導(dǎo)致該方法學(xué)習(xí)到的3D LUT中稀疏采樣點(diǎn)分配策略次優(yōu),從而限制了最終所得3D LUT的模型變換能力。這具體表現(xiàn)為:由于采樣點(diǎn)的稀疏性和3D LUT變換中采用的線性插值帶來的非線性變換表達(dá)能力的損失,均勻采樣策略可能將顏色相近的輸入像素量化到3D LUT的同一網(wǎng)格區(qū)間內(nèi);當(dāng)這些輸入像素的對應(yīng)輸出值需要較高的非線性對比度時(shí)(如增強(qiáng)圖像中處于暗光條件下具有顯著色彩差異的紋理區(qū)域時(shí)),單個(gè)LUT網(wǎng)格卻僅能提供線性的顏色拉伸變換,從而可能導(dǎo)致變換結(jié)果的顏色平滑。這種現(xiàn)象可以類比為數(shù)字信號(hào)處理領(lǐng)域中因采樣頻率不滿足奈奎斯特-香農(nóng)采樣定律而導(dǎo)致的信號(hào)失真,如下左邊示意圖所示。理想情況下,增加稀疏采樣點(diǎn)的數(shù)量或引入非線性插值也許可以有效緩解這種非線性變換能力不足的問題,但也會(huì)顯著增加3D LUT方法的計(jì)算和內(nèi)存復(fù)雜度,犧牲了LUT方法的實(shí)時(shí)性。此外,如下右半部分的示意圖所示,在均勻采樣策略中直接增加采樣點(diǎn)的數(shù)量也會(huì)加劇3D LUT對顏色變換平坦區(qū)域(如輸出顏色僅為輸入顏色的線性拉伸)甚至對輸入顏色空間中鮮有像素分布的區(qū)域的過采樣,從而造成了3D LUT模型容量和內(nèi)存消耗的浪費(fèi)。
方法介紹
針對現(xiàn)有工作因其在輸入空間中通過均勻量化間隔的有限稀疏采樣點(diǎn)完成3D LUT的構(gòu)建而存在的局部非線性顏色變換建模能力不足的挑戰(zhàn),我們提出基于采樣間距自適應(yīng)學(xué)習(xí)的3D LUT方法來為上述挑戰(zhàn)提供一種先進(jìn)的解決方案,即Adaptive Intervals Learning (AdaInt)。具體而言,我們提出并設(shè)計(jì)一種輕量緊支的三維顏色空間動(dòng)態(tài)采樣間隔預(yù)測機(jī)制,作為3D LUT方法的一種即插即用模塊,自適應(yīng)地根據(jù)輸入圖像內(nèi)容預(yù)測3D LUT中稀疏采樣點(diǎn)的分布方式。通過提供給模型在三維顏色空間中自適應(yīng)、非均勻采樣的能力,模型有望在需要較強(qiáng)非線性變換的顏色空間內(nèi)分配更多的采樣點(diǎn)以提高3D LUT的局部非線性變換能力,在變換較為平坦的區(qū)域分配較少的采樣點(diǎn)以減少3D LUT的容量冗余,從而提高3D LUT方法的靈活性和圖像自適應(yīng)性。
所提方法的整體模型框架如上圖所示。我們以待增強(qiáng)的圖像作為模型輸入,自動(dòng)輸出經(jīng)過顏色增強(qiáng)的高質(zhì)圖像,并將輸出圖像與經(jīng)過人為美化的目標(biāo)圖像計(jì)算MSE重建損失,從而實(shí)現(xiàn)整個(gè)方法框架的端到端學(xué)習(xí)。
具體模型結(jié)構(gòu)上,我們使用一個(gè)輕量的卷積神經(jīng)網(wǎng)絡(luò)將下采樣到固定分辨率(256x256像素)的輸入圖像作為輸入,通過該網(wǎng)絡(luò)同時(shí)預(yù)測圖像自適應(yīng)3D LUT的兩個(gè)核心組成部件——非均勻的輸入顏色采樣坐標(biāo)和相應(yīng)的輸出顏色值。
在3D LUT的輸出顏色值上,我們延續(xù)現(xiàn)有工作[2]采用的方式——通過網(wǎng)絡(luò)自動(dòng)預(yù)測系數(shù)來針對每張圖像動(dòng)態(tài)加權(quán)合并若干個(gè)可學(xué)習(xí)的Basis 3D LUTs,以避免直接回歸全部輸出顏色值所帶來的大量網(wǎng)絡(luò)參數(shù)和計(jì)算復(fù)雜度的引入。
對于非均勻輸入顏色采樣坐標(biāo),我們假設(shè)在查找過程中3D LUT的三個(gè)顏色維度是相互獨(dú)立的;通過這種方式,我們可以分別預(yù)測每個(gè)顏色維度的一維采樣坐標(biāo)序列,并通過笛卡兒積(n-ary Cartesian Product)得到對應(yīng)的三維采樣坐標(biāo)。
這兩個(gè)組成部件組合在一起構(gòu)成一個(gè)具有自適應(yīng)、非均勻三維布局的3D LUT,它可以通過我們精心設(shè)計(jì)的一種稱為 AiLUT-Transform 的新型可微算子對原始輸入圖像進(jìn)行高效的顏色變換和增強(qiáng)。具體而言,我們通過在標(biāo)準(zhǔn)的查找表變換的查找過程中引入低復(fù)雜度的二分搜索來確定輸入顏色在非均勻布局查找表中所在的網(wǎng)格,并通過推導(dǎo)偏微分為網(wǎng)絡(luò)自動(dòng)預(yù)測的非均勻顏色采樣坐標(biāo)提供梯度以進(jìn)行端到端學(xué)習(xí)。
實(shí)驗(yàn)結(jié)果
本文所提出的AdaInt模塊可以在可忽略不計(jì)的參數(shù)和計(jì)算量增加下顯著提高基線三維查找表方法的增強(qiáng)效果,如下圖所示。
通過對不同輸入圖像可視化網(wǎng)絡(luò)學(xué)習(xí)得到3D LUTs,如下圖所示,我們可以觀察到針對曝光較弱(左子圖)和曝光較強(qiáng)(右子圖)的不同輸入圖像,網(wǎng)絡(luò)預(yù)測的采樣坐標(biāo)(如第三行中豎線所示)分別聚集在了圖像的不同灰度值區(qū)域。這體現(xiàn)了所提方法如預(yù)期一般在大規(guī)模數(shù)據(jù)先驗(yàn)中一定程度學(xué)習(xí)到了在三維顏色空間自適應(yīng)采樣3D LUT的能力。
在兩個(gè)公開圖像增強(qiáng)/美化數(shù)據(jù)集FiveK和PPR10K上,所提方法以總體較低的參數(shù)量和實(shí)時(shí)推理時(shí)間在增強(qiáng)圖像的客觀評價(jià)指標(biāo)上超過了現(xiàn)有方法,達(dá)到了先進(jìn)性能。
總結(jié)
在本文中,我們簡要介紹了一種新穎的,可用于強(qiáng)化可學(xué)習(xí) 3D LUT 以進(jìn)行實(shí)時(shí)顏色增強(qiáng)的學(xué)習(xí)機(jī)制——AdaInt。其中心思想是引入圖像自適應(yīng)采樣間隔來學(xué)習(xí)非均勻的3D LUT布局。兩個(gè)公開數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果驗(yàn)證了方法在性能和效率方面優(yōu)于其他先進(jìn)的現(xiàn)有方法。此外,作者相信本文方法中所蘊(yùn)含的思想,即對復(fù)雜的底層變換函數(shù)或表示進(jìn)行非均勻采樣的觀點(diǎn)不僅局限于 3D LUTs,也有望指導(dǎo)其他應(yīng)用的改進(jìn),我們將其留作我們未來的工作。