開源:基于可分離級聯(lián)查找表的實(shí)時(shí)圖像增強(qiáng)方法
ECCV全稱為European Conference on Computer Vision,即歐洲計(jì)算機(jī)國際會議,是計(jì)算機(jī)視覺領(lǐng)域的三大頂級會議之一。該會議每兩年在世界范圍內(nèi)召開一次,討論內(nèi)容涵蓋了與圖像或視頻模式提取或識別相關(guān)的廣泛主題,常見主題包括對象識別、目標(biāo)檢測、圖像分割、圖像恢復(fù)和圖像增強(qiáng)等。今年的ECCV會議接受了來自世界各地總計(jì)5,803份有效論文投稿,經(jīng)過會議主席和眾多審稿人的努力,共計(jì)1,650份論文投稿被會議接收,總接收率約為28%。
本次合作論文首次提出了一種通過深度學(xué)習(xí)對輸入圖像自適應(yīng)地生成級聯(lián)的一維和三維查找表,將一個(gè)復(fù)雜的顏色變換解耦為顏色分量獨(dú)立以及顏色分量耦合的兩個(gè)子變換,從而對輸入圖像進(jìn)行高效色彩增強(qiáng)的創(chuàng)新性技術(shù)。
解耦變換受啟發(fā)于傳統(tǒng)ISP中分治的思想,一維查找表負(fù)責(zé)顏色分量獨(dú)立的變換(如亮度、對比度調(diào)整),三維查找表負(fù)責(zé)顏色分量耦合的變換(如色度、飽和度調(diào)整);兩種子變換通過動態(tài)網(wǎng)絡(luò)范式下的聯(lián)合優(yōu)化,可以優(yōu)勢互補(bǔ),從而解決單一類型查找表變換建模能力不足或計(jì)算/存儲開銷較大的問題。在多個(gè)學(xué)術(shù)界公開相片美化數(shù)據(jù)集上與現(xiàn)有方法的對比實(shí)驗(yàn)表明,我們的方法可以在推理速度與現(xiàn)有最高效方法可比的同時(shí)取得最佳客觀質(zhì)量指標(biāo)。
論文地址:
https://arxiv.org/abs/2207.08351
項(xiàng)目地址:
https://github.com/ImCharlesY/SepLUT
背景
色彩增強(qiáng)是圖像處理的基本內(nèi)容之一,是傳統(tǒng)圖像信號處理器ISP中不可或缺的關(guān)鍵環(huán)節(jié),也是畫質(zhì)增強(qiáng)的重要手段。它根據(jù)待處理圖像本身的內(nèi)容以及增強(qiáng)圖像所面向的應(yīng)用場景,對圖像中像素的顏色進(jìn)行調(diào)整,增加不同像素之間的顏色對比度,提高顯著區(qū)域的顏色飽和度等等,從而最終提高圖像的視覺效果。
現(xiàn)有的研究工作和工業(yè)產(chǎn)品往往設(shè)計(jì)了類型多樣的顏色變換來針對顏色的不同屬性,如HSV模型中定義的亮度、色度、飽和度等,進(jìn)行調(diào)整。在這其中,查找表(Lookup Tables,LUTs)是ISP設(shè)備中廣泛用于存儲和建模各類顏色變換的一種重要技術(shù)。
其本質(zhì)為通過稀疏采樣、預(yù)計(jì)算、緩存和插值查詢等操作而實(shí)現(xiàn)的對一個(gè)復(fù)雜的函數(shù)變換的有損近似。具體而言,查找表通過對一個(gè)變換函數(shù)的輸入空間進(jìn)行稀疏采樣,預(yù)先計(jì)算并以表格形式記錄采樣輸入的對應(yīng)輸出,從而在實(shí)際推理過程中以廉價(jià)的查詢和插值操作來避免高昂的變換函數(shù)計(jì)算開銷。根據(jù)輸入空間維度的不同,常用的查找表有一維查找表(1D LUT)和三維查找表(3D LUT),分別適用于一維函數(shù)和三維函數(shù)的建模。
圖1 HSV顏色模型和典型ISP的流程框圖
典型的ISP設(shè)備遵循分治的基本設(shè)計(jì)思想,使用若干個(gè)不同的1D和3D LUTs分別實(shí)現(xiàn)各類顏色變換。其中,1D LUTs適用于顏色分量獨(dú)立(component-independent)的變換(如曝光補(bǔ)償、伽馬變換等),這類變換中不同的顏色通道/分量(如RGB)各自以一維輸入的形式獨(dú)立進(jìn)行變換;3D LUTs則對建模顏色分量耦合(component-correlated)的變換(如色度、飽和度調(diào)整等)更具優(yōu)勢,具備混合不同顏色分量間或調(diào)節(jié)混合比例的能力。
工作動機(jī)
傳統(tǒng)的查找表技術(shù)往往依賴于專業(yè)人員的人工調(diào)參,這需要大量的經(jīng)驗(yàn)分析和人力付出,且一次調(diào)參所得的查找表模式往往較為單一,難以適配復(fù)雜多變的應(yīng)用場景。近年來,得益于深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的數(shù)據(jù)特征提取能力,學(xué)術(shù)界一些最新的工作開始嘗試結(jié)合深度學(xué)習(xí)和傳統(tǒng)的查找表方法,來實(shí)現(xiàn)魯棒高效且具備場景適應(yīng)能力的自動色彩增強(qiáng)技術(shù)。
它們采用了動態(tài)神經(jīng)網(wǎng)絡(luò)的范式,在輸入圖像的低分辨率版本上利用深度網(wǎng)絡(luò)進(jìn)行圖像內(nèi)容理解,并自適應(yīng)地預(yù)測或調(diào)節(jié)最終用于變換圖像的查找表的參數(shù)。
這些方法在利用數(shù)據(jù)驅(qū)動的深度網(wǎng)絡(luò)替代了傳統(tǒng)查找表技術(shù)繁重的人工調(diào)參的同時(shí),巧妙緩解了深度網(wǎng)絡(luò)引入的較高的計(jì)算負(fù)擔(dān)(網(wǎng)絡(luò)僅在低分圖像上推理),從而兼具較強(qiáng)的圖像/場景自適應(yīng)能力和較高的實(shí)時(shí)性。
然而,現(xiàn)有工作基本遵循了當(dāng)今深度學(xué)習(xí)領(lǐng)域的主流趨勢——即通過單一模型來統(tǒng)一盡可能多的圖像變換,以追求模型的簡潔性和泛用性。它們將類型多樣的顏色變換編碼到單一類型的可學(xué)習(xí)查找表中,也即試圖使用單獨(dú)的一維或三維查找表來統(tǒng)一處理ISP中不同查找表所建模的不同變換。這種做法未能有效考慮到單一類型查找表在同時(shí)建模顏色分量獨(dú)立和顏色分量耦合變換這兩類變換時(shí)的模型容量不足,從而限制了這些方法的色彩增強(qiáng)能力。
具體而言:基于一維查找表的方法缺失了交互不同顏色分量信息這一重要的建模能力;而三維查找表盡管具備同時(shí)建模兩類變換的能力,但在深度學(xué)習(xí)數(shù)據(jù)驅(qū)動的訓(xùn)練范式下,三維查找表需要依賴較大的參數(shù)量規(guī)模以提高其對不同圖像復(fù)雜多變的顏色分布的適應(yīng)能力?,F(xiàn)有工作大多采用33點(diǎn)甚至64點(diǎn)的三維查找表,而ISP設(shè)備中三維查找表的典型設(shè)置是17點(diǎn)甚至9點(diǎn)。大規(guī)模的三維查找表會造成較大的內(nèi)存、儲存開銷和較高的模型訓(xùn)練難度。
例如,當(dāng)面對欠曝和過曝這兩種極端的具有“窄帶”顏色分布的待處理圖像時(shí),如果模型缺乏類似典型ISP中必要的前置變換來將輸入圖像的顏色分布伸縮至一個(gè)感知均勻的顏色空間的話,相同的三維晶格需要對自己棱角處的色彩變換進(jìn)行劇烈的調(diào)整以適應(yīng)輸入圖像的顏色分布。這在大規(guī)模數(shù)據(jù)驅(qū)動的神經(jīng)網(wǎng)絡(luò)訓(xùn)練范式下會導(dǎo)致學(xué)習(xí)的不穩(wěn)定。
方法介紹
? 核心思路
解決上述問題的思路是簡單而直觀的,我們提出基于可分離級聯(lián)查找表的自適應(yīng)色彩增強(qiáng)方法,即Separable Lookup Tables (SepLUT)。具體而言,我們遵循本文背景小節(jié)所闡述的概念以及典型ISP流程中分治的基本設(shè)計(jì)思想,將一個(gè)完備的顏色變換函數(shù)分解為級聯(lián)的顏色分量獨(dú)立和顏色分量相關(guān)的兩種子變換,并分別使用一維和三維查找表來實(shí)例化它們??煞蛛x的命名受啟發(fā)于通用卷積網(wǎng)絡(luò)中將單個(gè)大尺度卷積層分解成多個(gè)小尺度卷積的思路。
兩種類型的查找表可以相輔相成——其中,三維查找表可以有效補(bǔ)充前置一維查找表在顏色分量混合上的建模能力缺陷,而一維查找表則可以自適應(yīng)地對輸入圖像的顏色分布進(jìn)行預(yù)調(diào)整,使得后置的三維查找表可以被更加充分的利用,從而使小規(guī)模三維查找表的使用成為可能,減少模型整體的參數(shù)和計(jì)算復(fù)雜度,降低模型訓(xùn)練難度。
? 具體框架
所提方法的整體模型框架如下圖所示。我們以待增強(qiáng)的圖像作為模型輸入,使用一個(gè)輕量的直筒型卷積網(wǎng)絡(luò)在輸入圖像的下采樣低分辨率版本上進(jìn)行圖像理解,提取圖像的全局特征(如亮度、對比度等信息),并將全局特征饋入后續(xù)的雙分支全連接層結(jié)構(gòu),用于預(yù)測圖像自適應(yīng)的一維和三維查找表。所得的查找表以級聯(lián)的形式對原始圖像進(jìn)行色彩變換,得到經(jīng)過顏色增強(qiáng)的高質(zhì)圖像。最終,輸出圖像與經(jīng)過人為美化的目標(biāo)圖像計(jì)算MSE重建損失,并通過梯度反向傳播機(jī)制對網(wǎng)絡(luò)參數(shù)進(jìn)行更新,從而實(shí)現(xiàn)整個(gè)方法框架的端到端學(xué)習(xí)。
? 量化優(yōu)化
我們方法中一維和三維查找表元素的生成是通過全連接層進(jìn)行的。由于全連接層的本質(zhì)是矩陣乘法,基于全連接層的查找表元素預(yù)測實(shí)際上可以等價(jià)于在全連接層中編碼若干可學(xué)習(xí)的Basis LUTs,全連接層的輸入則可以類比為用于線性組合這些Basis LUTs的自適應(yīng)加權(quán)系數(shù)。注意到在所提框架中,模型最終輸出圖像上各個(gè)像素的值實(shí)質(zhì)上也是所得查找表中元素的線性組合。
因此,我們方法中全連接層的可學(xué)習(xí)參數(shù)實(shí)質(zhì)上是與模型的最終輸出同空間、語義一致的,都屬于顏色空間。由于在數(shù)字圖像處理領(lǐng)域顏色空間是天然需要量化,因此,我們的方法還可以通過參數(shù)量化和浮點(diǎn)計(jì)算定點(diǎn)化技術(shù)進(jìn)一步降低模型內(nèi)存/儲存開銷和計(jì)算加速。相比于模型壓縮領(lǐng)域的其它參數(shù)量化技術(shù),我們的方法可以在訓(xùn)練完畢的測試階段直接進(jìn)行參數(shù)量化而不會引起顯著的性能下降,這得益于模型參數(shù)空間和最終輸出空間之間的語義一致性。
實(shí)驗(yàn)結(jié)果
我們設(shè)計(jì)了一系列的消融實(shí)驗(yàn)分析所提方法中部分關(guān)鍵設(shè)計(jì)細(xì)節(jié)的有效性。針對一維查找表,考慮到我們工作動機(jī)中對其顏色分量獨(dú)立變換和顏色分布伸縮變換能力的期待,我們比較了一維查找表和經(jīng)典灰度分布變換算法——直方圖均衡化(Histogram Equalization,HE)的優(yōu)劣。
下表結(jié)果可以看出,HE基于最大熵理論的分布均衡化機(jī)制并不能很好地適應(yīng)不同的圖像內(nèi)容和不同的目標(biāo)美化風(fēng)格。而可學(xué)習(xí)的一維查找表可以通過端到端數(shù)據(jù)驅(qū)動的學(xué)習(xí)來取得更優(yōu)的圖像自適應(yīng)的顏色分布調(diào)整策略。
我們還通過將網(wǎng)絡(luò)對不同輸入圖像生成的1D和3D LUTs進(jìn)行可視化,來直觀地對網(wǎng)絡(luò)行為進(jìn)行分析。如下圖所示,模型針對不同輸入圖像預(yù)測的一維查找表傾向于對輸入圖像的顏色分布進(jìn)行預(yù)調(diào)整,使其“對齊”于目標(biāo)增強(qiáng)圖像的顏色分布(一維查找表輸出圖像的顏色分布直方圖已經(jīng)比較接近GroundTruth圖像的直方圖)。
后續(xù)三維查找表的變換則更多對圖像的色相、飽和度進(jìn)行調(diào)整(如第二行圖像中天空區(qū)域前后的顏色變化)。這一觀察驗(yàn)證了我們工作動機(jī)中分治的基本設(shè)計(jì)思想。
我們也驗(yàn)證了推理階段的直接參數(shù)量化和浮點(diǎn)計(jì)算定點(diǎn)化對所提方法性能的影響。由下表結(jié)果可以看出,得益于參數(shù)空間和輸出空間之間的語義一致性,直接的量化處理在可以顯著減少模型參數(shù)量和提高推理速度的同時(shí),并不會引起圖像增強(qiáng)質(zhì)量的劇烈變化。
在公開的圖像增強(qiáng)/美化基準(zhǔn)數(shù)據(jù)集FiveK上,所提方法以總體較低的參數(shù)量和實(shí)時(shí)推理時(shí)間在增強(qiáng)圖像的客觀評價(jià)指標(biāo)上超過了現(xiàn)有方法,達(dá)到了先進(jìn)性能。
總結(jié)
在如今基于深度學(xué)習(xí)的計(jì)算機(jī)視覺領(lǐng)域追求單一模型、統(tǒng)一變換的大趨勢下,本文另辟蹊徑,重新轉(zhuǎn)向傳統(tǒng)方法中經(jīng)典的分治思想。我們設(shè)計(jì)實(shí)現(xiàn)了基于圖像自適應(yīng)可分離級聯(lián)查找表的實(shí)時(shí)顏色增強(qiáng)方法,利用不同類型的查找表來分別處理一個(gè)復(fù)雜顏色變換中不同類型的子變換。所提方法的可行揭示了分治的基本設(shè)計(jì)思想在減少模型復(fù)雜度、降低模型訓(xùn)練難度、提高模型整體性能和效率等方面的潛力。我們相信這種基本思想并不局限于顏色增強(qiáng)和查找表方法,也有望在其它領(lǐng)域和場景下獲得應(yīng)用。
團(tuán)隊(duì)介紹
該工作主要在大淘寶技術(shù)中支持內(nèi)容業(yè)務(wù)的音視頻算法與基礎(chǔ)技術(shù)團(tuán)隊(duì)的帶領(lǐng)下完成,該團(tuán)隊(duì)依托淘寶直播、逛逛和點(diǎn)淘等內(nèi)容業(yè)務(wù),致力于打造行業(yè)領(lǐng)先的音視頻技術(shù)。團(tuán)隊(duì)成員來自海內(nèi)外知名高校,先后在MSU世界編碼器大賽,NTIRE視頻圖像增強(qiáng)領(lǐng)域這樣的領(lǐng)域強(qiáng)相關(guān)權(quán)威賽事上奪魁,并重視與學(xué)界的合作與交流。
這項(xiàng)工作的主要合作方為上海交通大學(xué)張文軍教授領(lǐng)銜的圖像所團(tuán)隊(duì),是數(shù)字電視廣播及數(shù)字媒體處理與傳輸領(lǐng)域的主要研究力量之一。面向國家戰(zhàn)略性新興產(chǎn)業(yè),順應(yīng)網(wǎng)絡(luò)化、融合化的發(fā)展趨勢,近年來開展的重點(diǎn)研究領(lǐng)域包括智能媒體融合網(wǎng)絡(luò)、視頻智能分析處理與傳輸?shù)?。徐奕副教授為團(tuán)隊(duì)視頻處理分析方向的骨干教師。