萬(wàn)字解讀首篇「人臉復(fù)原」綜述!南大、中山、澳國(guó)立、帝國(guó)理工等聯(lián)合發(fā)布
?近年來(lái),隨著深度學(xué)習(xí)的發(fā)展和大規(guī)模數(shù)據(jù)集的出現(xiàn),深度學(xué)習(xí)在很多領(lǐng)域也取得了進(jìn)展,但其中「人臉復(fù)原」(Face Restoration)任務(wù)仍然缺乏系統(tǒng)性的綜述。
最近,來(lái)自南京大學(xué)、澳大利亞國(guó)立大學(xué)、中山大學(xué)、帝國(guó)理工學(xué)院和騰訊的研究者們?nèi)婊仡櫜⒖偨Y(jié)了基于深度學(xué)習(xí)的人臉復(fù)原技術(shù)的研究進(jìn)展,對(duì)人臉復(fù)原方法進(jìn)行了分類(lèi),討論了網(wǎng)絡(luò)架構(gòu)、損失函數(shù)和基準(zhǔn)數(shù)據(jù)集,并對(duì)現(xiàn)有SOTA方法進(jìn)行了系統(tǒng)性性能評(píng)測(cè)。
論文鏈接:https://arxiv.org/abs/2211.02831
倉(cāng)庫(kù)鏈接:https://github.com/TaoWangzj/Awesome-Face-Restoration
這篇文章也是人臉復(fù)原領(lǐng)域首篇綜述,其主要貢獻(xiàn)為:
1. 回顧了人臉復(fù)原任務(wù)中主要的退化模型、常用的評(píng)價(jià)指標(biāo),并總結(jié)了人臉圖像顯著性的特點(diǎn);
2. 總結(jié)了目前人臉復(fù)原面臨的挑戰(zhàn),對(duì)現(xiàn)有方法進(jìn)行分類(lèi)及概述。方法主要包括兩大類(lèi):基于先驗(yàn)的深度學(xué)習(xí)復(fù)原方法和無(wú)先驗(yàn)的深度學(xué)習(xí)復(fù)原方法;
3. 梳理了方法中使用的基本網(wǎng)絡(luò)架構(gòu)、基本網(wǎng)絡(luò)模塊、損失函數(shù)和標(biāo)準(zhǔn)數(shù)據(jù)集;
4. 在公共基準(zhǔn)數(shù)據(jù)集上對(duì)現(xiàn)有SOTA方法進(jìn)行了系統(tǒng)性實(shí)驗(yàn)評(píng)測(cè);
5. 分析了人臉復(fù)原任務(wù)未來(lái)發(fā)展前景。
文章的整體架構(gòu)
研究背景
人臉復(fù)原(Face Restoration, FR)是底層視覺(jué)中一個(gè)特定的圖像復(fù)原問(wèn)題,旨在從低質(zhì)量的輸入人臉圖像中恢復(fù)出高質(zhì)量的人臉圖像。通常來(lái)說(shuō),退化模型可以描述為:
其中I(lq)是低質(zhì)量人臉圖像, D是與噪聲不相關(guān)的退化函數(shù), n是加性高斯噪聲。當(dāng)退化函數(shù)D不同的時(shí)候,就對(duì)應(yīng)了不同的退化模型。因此,F(xiàn)R任務(wù)可以視為是求解上述退化模型的逆過(guò)程,它可以表示為:
其中根據(jù)退化函數(shù)不同,人臉復(fù)原任務(wù)主要可以分為以下五大類(lèi),其分別對(duì)應(yīng)著不同的退化模型:
1. 人臉去噪任務(wù)(Face Denoising, FDN):去除人臉圖像中的噪聲,恢復(fù)出高質(zhì)量的人臉;
2. 人臉去模糊任務(wù)(Face Deblurring, FDB):去除人臉圖像中的模糊,恢復(fù)出高質(zhì)量的人臉;
3. 人臉超分辨率任務(wù)(Face Super-Resolution, FSR):從低質(zhì)量的低分辨率人臉中恢復(fù)出高分辨率高質(zhì)量的人臉;
4. 人臉去偽影任務(wù)(Face Artifact Removal, FAR):去除人臉圖像壓縮過(guò)程中出現(xiàn)的偽影,恢復(fù)出高質(zhì)量的人臉;
5. 盲人臉復(fù)原任務(wù)(Blind Face Restoration, BFR):將未知退化的低質(zhì)量人臉復(fù)原成高質(zhì)量人臉;
人臉特點(diǎn)
與一般自然圖像的復(fù)原任務(wù)不同,人臉圖像具有很強(qiáng)的結(jié)構(gòu)性信息,因此人臉復(fù)原任務(wù)可以利用人臉圖像的先驗(yàn)信息來(lái)輔助人臉的復(fù)原過(guò)程,先驗(yàn)信息主要可以分為以下三部分:
人的屬性信息:如性別,年齡,是否佩戴眼鏡,如下圖所示;
人的身份信息;
其他先驗(yàn)信息:如下圖所示,代表性的先驗(yàn)有人臉landmark,人臉熱圖,人臉解析圖和3D人臉先驗(yàn);
人臉復(fù)原面臨的主要挑戰(zhàn)
1. 人臉復(fù)原本身是一個(gè)不適定的問(wèn)題。
因?yàn)榈唾|(zhì)量人臉圖像的退化類(lèi)型和退化參數(shù)是事先未知的,從退化的圖像中估計(jì)高質(zhì)量的人臉圖像是一個(gè)不適定問(wèn)題。
另一方面,在實(shí)際場(chǎng)景中,人臉圖像的退化是復(fù)雜多樣的。因此,如何設(shè)計(jì)有效并且魯棒的人臉復(fù)原模型來(lái)解決這個(gè)不適定的問(wèn)題具有一定的挑戰(zhàn)性。
2. 探索未知的人臉先驗(yàn)較為困難。
現(xiàn)有人臉復(fù)原算法很難充分利用人臉先驗(yàn)知識(shí),因?yàn)槿四樝闰?yàn)(例如面部成分和面部標(biāo)志)通常是從低質(zhì)量人臉圖像中估計(jì)的,低質(zhì)量的人臉可能造成先驗(yàn)估計(jì)的不準(zhǔn)確,這直接影響人臉復(fù)原算法的性能。
另一方面,真實(shí)場(chǎng)景拍攝的人臉圖像往往包含復(fù)雜多樣的退化類(lèi)型,找到合適的人臉先驗(yàn)來(lái)輔助人臉復(fù)原過(guò)程是非常困難的。因此,如何挖掘合理的人臉先驗(yàn)具有一定的挑戰(zhàn)性。
3. 缺乏大型公開(kāi)基準(zhǔn)數(shù)據(jù)集。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于深度學(xué)習(xí)的方法在人臉復(fù)原方面表現(xiàn)出令人印象深刻的性能。大多數(shù)基于深度學(xué)習(xí)的人臉復(fù)原方法強(qiáng)烈依賴于大規(guī)模數(shù)據(jù)集來(lái)訓(xùn)練網(wǎng)絡(luò)。
然而,目前大多數(shù)人臉復(fù)原方法通常在非公開(kāi)數(shù)據(jù)集上訓(xùn)練或測(cè)試的。因此,目前很難直接公平地比較現(xiàn)有人臉復(fù)原方法。
此外,缺乏高質(zhì)量和大規(guī)模的基準(zhǔn)限制了模型的潛力。然而,如何獲得大規(guī)模的人臉數(shù)據(jù)依然很困難,因此,為人臉復(fù)原任務(wù)構(gòu)建合理的公開(kāi)基準(zhǔn)數(shù)據(jù)集有一定的挑戰(zhàn)性。
4. 人臉復(fù)原算法在實(shí)際場(chǎng)景下泛化能力有限。
盡管基于深度學(xué)習(xí)方法在人臉復(fù)原方面取得了較好的性能,但大多數(shù)方法是依賴監(jiān)督策略進(jìn)行訓(xùn)練。
也就是說(shuō),這些方法需要成對(duì)的(低質(zhì)量和高質(zhì)量圖像對(duì)) 數(shù)據(jù)集,如果這個(gè)條件不滿足,它們性能會(huì)大幅度降低。
另一方面,很難在現(xiàn)實(shí)場(chǎng)景中收集到具有成對(duì)樣本的大規(guī)模數(shù)據(jù)集。因此,在合成數(shù)據(jù)集上訓(xùn)練的算法在實(shí)際場(chǎng)景下泛化能力很弱,從而限制了模型在實(shí)際場(chǎng)景中的適用性。因此,如何提高人臉?biāo)惴ㄔ趯?shí)際場(chǎng)景下泛化能力具有一定的挑戰(zhàn)性。
人臉復(fù)原方法總結(jié)與分類(lèi)
到目前為止,研究人員提出了許多人臉復(fù)原算法來(lái)嘗試解決上述的挑戰(zhàn)。下圖顯示了基于深度學(xué)習(xí)的人臉復(fù)原方法的一個(gè)簡(jiǎn)明的里程碑。
如圖所示,自2015年以來(lái),基于深度學(xué)習(xí)的人臉復(fù)原方法的數(shù)量逐年增加。
這些人臉復(fù)原方法分為兩類(lèi):基于先驗(yàn)的深度學(xué)習(xí)復(fù)原方法和基于非先驗(yàn)的深度學(xué)習(xí)復(fù)原方法。
而對(duì)于基于先驗(yàn)的深度學(xué)習(xí)復(fù)原方法,我們將其分為三類(lèi): 基于幾何先驗(yàn)的深度學(xué)習(xí)復(fù)原方法,基于參考先驗(yàn)的深度復(fù)原方法和基于生成先驗(yàn)的深度復(fù)原方法。
下面對(duì)具有代表性的人臉復(fù)原算法進(jìn)行簡(jiǎn)要介紹。
基于幾何先驗(yàn)的深度復(fù)原方法(Geometric Prior Based Deep Restoration Methods)
該方法主要利用圖像中人臉獨(dú)特的幾何形狀和空間分布信息來(lái)幫助模型逐步恢復(fù)高質(zhì)量的人臉。典型的幾何先驗(yàn)有人臉landmark,人臉熱圖,面部解析圖和面部成分。代表性工作有:
SuperFAN:是第一個(gè)同時(shí)實(shí)現(xiàn)人臉超分辨率和人臉landmark定位任務(wù)的端到端方法。
這個(gè)方法的核心思路是使用聯(lián)合任務(wù)訓(xùn)練策略來(lái)引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)更多的人臉幾何信息來(lái)輔助模型實(shí)現(xiàn)高效的人臉超分辨率和人臉landmark定位。
MTUN:是一個(gè)包含兩個(gè)分支網(wǎng)絡(luò)的人臉復(fù)原方法,其中第一個(gè)分支網(wǎng)絡(luò)用來(lái)實(shí)現(xiàn)人臉圖像的超分辨率,第二個(gè)分支用于估計(jì)面部組成的熱力圖。
這個(gè)方法表明,利用低質(zhì)量人臉圖像中的人臉元素信息可以進(jìn)一步提高算法人臉復(fù)原的性能。
PSFR-GAN:是一種基于多尺度漸進(jìn)式網(wǎng)絡(luò)的盲人臉復(fù)原方法。這個(gè)方法的核心思路是通過(guò)使用多尺度低質(zhì)量人臉圖像和人解析圖作為輸入,通過(guò)語(yǔ)義感知風(fēng)格轉(zhuǎn)換來(lái)逐步恢復(fù)出人臉的面部細(xì)節(jié)。
基于參考先驗(yàn)的深度復(fù)原方法(Reference Prior Based Deep Restoration Methods
以往人臉復(fù)原方法只是依靠退化圖像來(lái)估計(jì)人臉先驗(yàn),然而人臉圖像退化過(guò)程通常是高度病態(tài)的,僅僅通過(guò)退化的圖像這些方法無(wú)法獲得準(zhǔn)確的人臉先驗(yàn)。
因此,另外一類(lèi)方法通過(guò)使用額外的高質(zhì)量人臉圖像來(lái)獲得的面部結(jié)構(gòu)或面部成分字典作為人臉參考先驗(yàn)來(lái)指導(dǎo)模型進(jìn)行高效地人臉復(fù)原。代表性工作有:
GFRNet: 該網(wǎng)絡(luò)模型由一個(gè)扭曲網(wǎng)絡(luò)(WarpNet)和一個(gè)重構(gòu)網(wǎng)絡(luò)(RecNet)。WarpNet是來(lái)提供扭曲引導(dǎo)信息,目的是通過(guò)生成流場(chǎng)對(duì)參考圖像進(jìn)行扭曲來(lái)糾正面部的姿勢(shì)和表情。RecNet將低質(zhì)量的圖像和扭曲的引導(dǎo)信息同時(shí)作為輸入來(lái)產(chǎn)生高質(zhì)量的人臉圖像。
GWAInet: 這個(gè)工作是在GFRNet的基礎(chǔ)上提出的,它以對(duì)抗生成的方式進(jìn)行訓(xùn)練,以生成高質(zhì)量的人臉圖像。與GFRNet相比,GWAInet在訓(xùn)練階段不依賴人臉標(biāo)記,這個(gè)模型更加關(guān)注整個(gè)人臉區(qū)域從而增加了模型的魯棒性。
DFDNet: 該方法首先利用K-means算法從高質(zhì)量圖像中為感知上顯著的面部成分(即左/右眼睛、鼻子和嘴)生成深度字典;然后,從生成的組件字典中選擇最相似的組件特征,將細(xì)節(jié)轉(zhuǎn)移到低質(zhì)量的人臉圖像中,指導(dǎo)模型進(jìn)行人臉復(fù)原。
基于生成先驗(yàn)的深度復(fù)原方法(Generative Prior Based Deep Restoration Methods)
隨著生成對(duì)抗網(wǎng)絡(luò)(GAN)的快速發(fā)展,研究發(fā)現(xiàn),預(yù)訓(xùn)練的人臉GAN模型,如StyleGAN、StytleGAN2能夠提供更加豐富的人臉先驗(yàn)(如幾何和面部紋理)。
因此,研究人員開(kāi)始利用GAN生成的先驗(yàn)輔助模型進(jìn)行人臉復(fù)原。代表性工作有:
PULSE: 這個(gè)工作核心是迭代優(yōu)化預(yù)訓(xùn)練StyleGAN的latent code, 直到輸出和輸入之間的距離低于閾值,從而實(shí)現(xiàn)高效的人臉超分辨率。
GFP-GAN: 這個(gè)工作利用預(yù)先訓(xùn)練的GAN模型中豐富多樣的先驗(yàn)作為生成先驗(yàn)來(lái)指導(dǎo)模型進(jìn)行盲人臉復(fù)原。這個(gè)方法主要包含一個(gè)降質(zhì)去除模塊和一個(gè)基于預(yù)訓(xùn)練GAN模型的先驗(yàn)?zāi)K,這兩個(gè)模塊通過(guò)一個(gè)latent code連接和幾個(gè)通道分割空間特征轉(zhuǎn)換層進(jìn)行高效信息傳遞。
GPEN: 這個(gè)方法核心思路是有效整合GAN和DNN兩中不同的框架優(yōu)勢(shì)實(shí)現(xiàn)高效的人臉復(fù)原。GPEN首先學(xué)習(xí)一個(gè)用于生成高質(zhì)量人臉圖像的GAN模型;然后將這個(gè)預(yù)先訓(xùn)練好的GAN模型嵌入到一個(gè)深度卷積網(wǎng)絡(luò)中作為先驗(yàn)解碼器;最后通過(guò)微調(diào)這個(gè)深度卷積網(wǎng)絡(luò)實(shí)現(xiàn)人臉復(fù)原。
基于非先驗(yàn)的深度復(fù)原方法:(Non-prior Based Deep Restoration Methods)
雖然大多數(shù)基于深度學(xué)習(xí)的人臉復(fù)原方法可以在人臉先驗(yàn)的幫助下恢復(fù)滿意的人臉,但依賴于人臉先驗(yàn)在一定程度上加劇了生成人臉圖像的成本。
為了解決這一問(wèn)題,另外一類(lèi)方法旨在設(shè)計(jì)一個(gè)端到端的網(wǎng)絡(luò)模型來(lái)直接學(xué)習(xí)低質(zhì)量和高質(zhì)量人臉圖像之間的映射函數(shù),而不需要引入任何額外的人臉先驗(yàn)。代表性工作有:
BCCNN: 一種用于人臉超分辨的雙通道卷積神經(jīng)網(wǎng)絡(luò)模型。它由一個(gè)特征提取器和一個(gè)圖像生成器組成,其中特征提取器從低分辨率人臉圖像中提取魯棒的人臉表示而圖像生成器自適應(yīng)地將提取的人臉表示與輸入的人臉圖像進(jìn)行融合,生成高分辨率圖像。
HiFaceGAN: 這個(gè)方法將人臉復(fù)原問(wèn)題轉(zhuǎn)化為語(yǔ)義引導(dǎo)的生成問(wèn)題,并設(shè)計(jì)了HifaceGAN模型來(lái)實(shí)現(xiàn)人臉復(fù)原。這個(gè)網(wǎng)絡(luò)模型是一個(gè)包含多個(gè)協(xié)作抑制模塊和補(bǔ)充模塊的多階段框架,這種結(jié)構(gòu)設(shè)計(jì)減少了模型對(duì)退化先驗(yàn)或訓(xùn)練結(jié)構(gòu)的依賴性。
RestoreFormer: 這是一種基于Transformer的端到端人臉復(fù)原方法。它主要探索了對(duì)上下文信息建模的全空間注意力機(jī)制。
這個(gè)方法核心思路主要有兩點(diǎn),第一個(gè)是提出了一個(gè)多頭交叉注意力層來(lái)學(xué)習(xí)損壞查詢和高質(zhì)量鍵值對(duì)之間的全空間交互。第二點(diǎn)是,注意力機(jī)制中的key-value 對(duì)是從高質(zhì)量字典中采樣獲得的,它蘊(yùn)含高質(zhì)量的人臉特征。
下圖全面地總結(jié)了近年來(lái)基于深度學(xué)習(xí)的人臉復(fù)原方法的特點(diǎn)。
其中Plain表示基于非先驗(yàn)的深度復(fù)原方法,F(xiàn)acial component 和Geometric prior 表示基于幾何先驗(yàn)的深度復(fù)原的兩類(lèi)方法,Reference prior表示基于參考先驗(yàn)的深度復(fù)原方法,Generative prior 表示基于非先驗(yàn)的深度復(fù)原方法,Deep CNN, GAN, ViT分別表示模型使用深度卷積神經(jīng)網(wǎng)絡(luò),生成對(duì)抗網(wǎng)絡(luò)和Visual Transformer網(wǎng)絡(luò)結(jié)構(gòu)。
技術(shù)發(fā)展回顧
這個(gè)部分全面地回顧了基于深度學(xué)習(xí)的人臉復(fù)原方法的技術(shù)發(fā)展過(guò)程,主要從以下幾個(gè)方面進(jìn)行總結(jié)和分析:網(wǎng)絡(luò)模型的基本架構(gòu)、使用的基本模塊、模型使用的損失函數(shù)和人臉相關(guān)的基準(zhǔn)數(shù)據(jù)集。
網(wǎng)絡(luò)架構(gòu)
現(xiàn)有基于深度學(xué)習(xí)的人臉復(fù)原方法的網(wǎng)絡(luò)架構(gòu)主要分為三類(lèi):基于先驗(yàn)引導(dǎo)的方法,基于GAN網(wǎng)絡(luò)結(jié)構(gòu)的方法和基于ViT網(wǎng)絡(luò)結(jié)構(gòu)的方法。因此,我們將在本節(jié)討論這些發(fā)展。
基于先驗(yàn)引導(dǎo)的方法
這類(lèi)方法主要可以分為四種,分別為基于前置先驗(yàn)的人臉復(fù)原方法(Pre-prior face restoration method),聯(lián)合先驗(yàn)估計(jì)和人臉復(fù)原的方法(Joint prior face restoration method),基于中間先驗(yàn)的人臉復(fù)原方法(Pre-prior face restoration method),基于參考先驗(yàn)的人臉復(fù)原方法(Reference-prior face restoration method)。
以上四種方法的簡(jiǎn)明結(jié)構(gòu)圖如下所示:
基于前置先驗(yàn)的人臉復(fù)原方法通常先使用先驗(yàn)估計(jì)網(wǎng)絡(luò)(如人臉先驗(yàn)估計(jì)網(wǎng)絡(luò)或預(yù)訓(xùn)練的人臉GAN模型)從低質(zhì)量輸入圖像中估計(jì)人臉先驗(yàn),然后利用一個(gè)網(wǎng)絡(luò)利用人臉先驗(yàn)和人臉圖像生成高質(zhì)量的人臉。
典型的方法如下圖所示,研究人員設(shè)計(jì)了一個(gè)人臉解析網(wǎng)絡(luò),先從輸入模糊人臉圖像中提取人臉語(yǔ)義標(biāo)簽,然后將模糊圖像和人臉語(yǔ)義標(biāo)簽同時(shí)輸入一個(gè)去模糊網(wǎng)絡(luò)中來(lái)生成清晰的人臉圖像。
聯(lián)合先驗(yàn)估計(jì)和人臉復(fù)原方法主要是挖掘了人臉先驗(yàn)估計(jì)任務(wù)和人臉復(fù)原任務(wù)之間的互補(bǔ)性關(guān)系。這類(lèi)方法通常聯(lián)合訓(xùn)練人臉復(fù)原網(wǎng)絡(luò)和先驗(yàn)估計(jì)網(wǎng)絡(luò),因此這類(lèi)方法同時(shí)兼顧了兩個(gè)子任務(wù)的優(yōu)點(diǎn),這能直接提高人臉復(fù)原任務(wù)的性能。
典型的方法如下圖所示,研究人員提出了一種聯(lián)合人臉對(duì)齊和人臉超分辨率的網(wǎng)絡(luò)模型,該方法共同估計(jì)人臉的landmark 位置和超分辨率人臉圖像。
基于中間先驗(yàn)的人臉復(fù)原方法的核心思路是首先使用一個(gè)復(fù)原網(wǎng)絡(luò)生成粗人臉圖像,然后從粗圖像中估計(jì)人臉先驗(yàn)信息,這樣比直接從輸入的低質(zhì)量的圖像可以獲得更精確的先驗(yàn)信息。
典型的方法如下圖所示,研究人員提出了FSRNet網(wǎng)絡(luò)模型,這個(gè)模型在網(wǎng)絡(luò)中間進(jìn)行人臉先驗(yàn)估計(jì)。
具體的,F(xiàn)SRNet先用一個(gè)粗SR網(wǎng)絡(luò)對(duì)圖像進(jìn)行粗恢復(fù);然后分別用一個(gè)細(xì)SR編碼器和一個(gè)先驗(yàn)估計(jì)網(wǎng)絡(luò)對(duì)粗結(jié)果圖像進(jìn)行先驗(yàn)估計(jì)和細(xì)化;最后將圖像細(xì)化特征和先驗(yàn)信息同時(shí)輸入到一個(gè)精細(xì)SR解碼器,恢復(fù)出最終的結(jié)果。
基于GAN網(wǎng)絡(luò)結(jié)構(gòu)的方法
這類(lèi)方法主要分為兩種類(lèi)型:基于樸素GAN架構(gòu)的方法(Plain GAN method)和基于預(yù)訓(xùn)練GAN嵌入式結(jié)構(gòu)的方法(Pre-trained GAN embedding method)。
這兩種方法的簡(jiǎn)明結(jié)構(gòu)圖如下所示:
基于普通GAN架構(gòu)的方法通常是在網(wǎng)絡(luò)模型中引入對(duì)抗性損失,然后使用對(duì)抗性學(xué)習(xí)策略來(lái)聯(lián)合優(yōu)化判別器和生成器(人臉復(fù)原網(wǎng)絡(luò)),從而生成更加逼真的人臉圖像。
?典型的方法如下圖所示,研究人員提出了HLGAN網(wǎng)絡(luò)模型,這個(gè)模型由兩個(gè)生成對(duì)抗網(wǎng)絡(luò)組成。
第一個(gè)是 High-to-Low GAN網(wǎng)絡(luò),它使用非成對(duì)的圖像進(jìn)行訓(xùn)練來(lái)學(xué)習(xí)高分辨率圖像的退化過(guò)程。第一個(gè)網(wǎng)絡(luò)的輸出(即低分辨率人臉圖像)被用來(lái)訓(xùn)練第二個(gè) Low-to-High GAN網(wǎng)絡(luò),從而實(shí)現(xiàn)人臉超分辨率。
基于預(yù)訓(xùn)練GAN嵌入式結(jié)構(gòu)的方法的核心思路是利用預(yù)訓(xùn)練的人臉GAN模型(如 StyleGAN)中的潛在先驗(yàn),然后將潛在先驗(yàn)融合到人臉復(fù)原的過(guò)程中,借助于潛在先驗(yàn)和對(duì)抗學(xué)習(xí)策略來(lái)實(shí)現(xiàn)高效的人臉復(fù)原。
典型的方法如下圖所示,研究人員設(shè)計(jì)了一個(gè)GFP-GAN 模型,這個(gè)模型主要包含一個(gè)降質(zhì)去除模塊和一個(gè)基于預(yù)訓(xùn)練GAN模型的先驗(yàn)?zāi)K,這兩個(gè)模塊通過(guò)一個(gè)latent code連接和幾個(gè)通道分割空間特征轉(zhuǎn)換層進(jìn)行高效信息傳遞。
基于ViT網(wǎng)絡(luò)結(jié)構(gòu)的方法
最近Visual Transformer (ViT)網(wǎng)絡(luò)架構(gòu)在自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)等領(lǐng)域表現(xiàn)出了卓越的性能,這也啟發(fā)了Transformer 架構(gòu)在人臉復(fù)原任務(wù)的應(yīng)用。
典型的方法如下圖所示,基于Swin Transformer,研究人員提出了一種用于人臉復(fù)原的端到端Swin Transformer U-Net (STUNet)網(wǎng)絡(luò)。
在 STUNet 中,transformer模塊利用自注意力機(jī)制和移位窗口策略來(lái)幫助模型關(guān)注更多有利于人臉復(fù)原的重要特征,這個(gè)方法取得了良好的性能。
網(wǎng)絡(luò)模型中常用的模塊
在人臉復(fù)原領(lǐng)域,研究者們?cè)O(shè)計(jì)了各種類(lèi)型的基礎(chǔ)模塊來(lái)構(gòu)建出強(qiáng)大的人臉復(fù)原網(wǎng)絡(luò)。常用的基礎(chǔ)模塊如下圖所示,其中這些基礎(chǔ)模塊主要有殘差模塊(Residual Block),Dense模塊(Dense Block),注意力模塊(Channel attention block, Residual channel attention block, spatial attention block)和Transformer 模塊(Transformer block)。
損失函數(shù)
人臉復(fù)原任務(wù)中常見(jiàn)的損失函數(shù)主要有以下幾類(lèi):Pixel-wise loss (主要包括L1和L2損失), Perceptual loss, Adversarial loss, face-specific loss。各項(xiàng)人臉復(fù)原方法以及他們使用的損失函數(shù)總結(jié)在下表中:
數(shù)據(jù)集
人臉復(fù)原任務(wù)相關(guān)的公開(kāi)數(shù)據(jù)集以及相關(guān)統(tǒng)計(jì)信息總結(jié)如下:
性能比較
本文總結(jié)并測(cè)試了一些具有代表性的人臉復(fù)原方法在PSNR/SSIM/MS-SSIM/LPIPS/NIQE等方面的性能
定量結(jié)果比較?
定性結(jié)果比較
方法復(fù)雜性比較
未來(lái)發(fā)展方向
盡管基于深度學(xué)習(xí)的人臉復(fù)原方法已經(jīng)取得了一定的進(jìn)展,但是仍然存在許多挑戰(zhàn)和未解決的問(wèn)題。
網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)
對(duì)于基于深度學(xué)習(xí)的人臉復(fù)原方法,網(wǎng)絡(luò)結(jié)構(gòu)可以對(duì)方法的性能產(chǎn)生顯著的影響。
例如,由于Transformer 架構(gòu)的強(qiáng)大能力,最近的基于Transformer 的方法通常具有更好的性能?;贕AN的方法可以生成視覺(jué)上令人更加愉悅的人臉圖像。
因此,在設(shè)計(jì)網(wǎng)絡(luò)時(shí),值得從不同的結(jié)構(gòu)如CNN、GAN和ViT中進(jìn)行學(xué)習(xí)和研究。
另一方面,最近基于Transformer的模型通常含有更大的參數(shù),并且需要更高的計(jì)算成本,這使得它們難以部署在邊緣設(shè)備中。
因此,如何設(shè)計(jì)一個(gè)性能強(qiáng)大的輕量級(jí)網(wǎng)絡(luò)是未來(lái)工作的另一個(gè)潛在研究方向。
面部先驗(yàn)與網(wǎng)絡(luò)的融合
作為特定領(lǐng)域的圖像復(fù)原任務(wù),人臉特征可以用于人臉復(fù)原任務(wù)。在設(shè)計(jì)模型時(shí),許多方法旨在利用人臉先驗(yàn)來(lái)恢復(fù)真實(shí)的人臉細(xì)節(jié)。
盡管一些方法試圖將幾何先驗(yàn)、面部組件、生成先驗(yàn)或3D先驗(yàn)引入人臉復(fù)原的過(guò)程,但如何將先驗(yàn)信息更加合理地集成到網(wǎng)絡(luò)中仍然是這個(gè)任務(wù)一個(gè)有前途的方向。
此外,進(jìn)一步挖掘新的與人臉相關(guān)的先驗(yàn),例如來(lái)自預(yù)訓(xùn)練GAN的先驗(yàn)或網(wǎng)絡(luò)中的數(shù)據(jù)統(tǒng)計(jì),也是這個(gè)任務(wù)的另一個(gè)方向。
損失函數(shù)和評(píng)價(jià)指標(biāo)
對(duì)于人臉復(fù)原任務(wù),廣泛使用的損失函數(shù)有 L1 損失、L2 損失、感知損失、對(duì)抗性損失和人臉特定損失,如表3所示。
現(xiàn)有方法通常不使用單個(gè)損失函數(shù),而是將多個(gè)損失函數(shù)與相應(yīng)的權(quán)重相結(jié)合訓(xùn)練模型。但是,目前還不清楚如何設(shè)計(jì)更加合理的損失函數(shù)來(lái)指導(dǎo)模型訓(xùn)練。
因此,在未來(lái),預(yù)計(jì)會(huì)有更多的工作尋求更準(zhǔn)確的損失函數(shù)(例如,通用或人臉任務(wù)驅(qū)動(dòng)的損失函數(shù)),以促進(jìn)人臉復(fù)原這個(gè)任務(wù)的發(fā)展。此外,損失函數(shù)可以直接影響模型的評(píng)估結(jié)果。如表 5、6和7所示,L1損失和L2損失在PSNR、SSIM和MS-SSIM 方面往往獲得更好的結(jié)果。
感知損失和對(duì)抗性損失往往會(huì)產(chǎn)生更令人愉悅的結(jié)果(即產(chǎn)生高 LPIPS、FID和NIQE值)。因此,如何開(kāi)發(fā)能夠兼顧人和機(jī)器兩方面的指標(biāo)進(jìn)行模型性能更加合理地評(píng)估也是未來(lái)一個(gè)很重要的方向。
計(jì)算開(kāi)銷(xiāo)
現(xiàn)有的人臉復(fù)原方法通常是通過(guò)顯著地增加網(wǎng)絡(luò)的深度或?qū)挾葋?lái)提高復(fù)原性能,而忽略了模型的計(jì)算成本。
繁重的計(jì)算成本阻止了這些方法在資源有限的環(huán)境中使用,例如移動(dòng)或嵌入式設(shè)備。
例如,如表8所示,最先進(jìn)的方法RestoreFormer 有72.37M參數(shù)量和340.80G MACs的計(jì)算量,這在現(xiàn)實(shí)世界的應(yīng)用程序中部署它是非常困難的。因此,開(kāi)發(fā)具有更少計(jì)算成本的模型是未來(lái)重要的方向。
基準(zhǔn)數(shù)據(jù)集
與圖像去模糊、圖像去噪和圖像去霧等其他底層視覺(jué)任務(wù)不同,人臉復(fù)原的標(biāo)準(zhǔn)評(píng)估基準(zhǔn)很少。
例如,大多數(shù)人臉復(fù)原方法通常在私有數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)(從FFHQ合成訓(xùn)練集)。
研究人員可能傾向于使用偏向于他們提出的方法的數(shù)據(jù)。另一方面,為了進(jìn)行公平比較,后續(xù)工作需要花費(fèi)大量時(shí)間來(lái)合成私有數(shù)據(jù)集并重新訓(xùn)練其他比較方法。此外,最近廣泛使用的數(shù)據(jù)集規(guī)模通常較小,不適合深度學(xué)習(xí)方法。
因此,開(kāi)發(fā)標(biāo)準(zhǔn)的基準(zhǔn)數(shù)據(jù)集是人臉復(fù)原任務(wù)的一個(gè)方向。未來(lái),我們期望社區(qū)的研究人員能夠構(gòu)建更多標(biāo)準(zhǔn)和高質(zhì)量的基準(zhǔn)數(shù)據(jù)集。
視頻人臉復(fù)原
隨著手機(jī)和相機(jī)等移動(dòng)設(shè)備的普及,視頻人臉復(fù)原任務(wù)變得越來(lái)越重要。然而,現(xiàn)有的工作主要集中在圖像人臉復(fù)原任務(wù)上,而視頻相關(guān)的人臉復(fù)原工作較少。
另一方面,視頻去模糊、視頻超分辨率和視頻去噪等其他底層視覺(jué)任務(wù)近年來(lái)發(fā)展迅速。
因此,視頻人臉復(fù)原是社區(qū)的一個(gè)潛在方向。視頻人臉復(fù)原任務(wù)可以從以下兩個(gè)方面來(lái)考慮。
首先,對(duì)于基準(zhǔn)數(shù)據(jù)集,我們可以考慮為此任務(wù)構(gòu)建高質(zhì)量的視頻數(shù)據(jù)集,這可以快速促進(jìn)視頻相關(guān)算法的設(shè)計(jì)和評(píng)估,這有利于人臉復(fù)原社區(qū)的發(fā)展;
其次,對(duì)于視頻復(fù)原方法,我們應(yīng)該通過(guò)充分考慮連續(xù)視頻幀之間的空間和時(shí)間信息來(lái)開(kāi)發(fā)基于視頻的人臉復(fù)原方法。
真實(shí)世界的人臉復(fù)原和應(yīng)用
現(xiàn)有方法依靠合成數(shù)據(jù)來(lái)訓(xùn)練網(wǎng)絡(luò)模型。然而,經(jīng)過(guò)訓(xùn)練的網(wǎng)絡(luò)不一定在現(xiàn)實(shí)世界的場(chǎng)景中表現(xiàn)出良好的泛化能力。
如圖19所示,大多數(shù)人臉復(fù)原方法在面對(duì)真實(shí)世界的人臉圖像時(shí)效果不佳。因?yàn)楹铣蓴?shù)據(jù)和現(xiàn)實(shí)世界數(shù)據(jù)之間存在很大的數(shù)據(jù)域差距。
盡管一些方法引入了一些解決方案來(lái)解決這個(gè)問(wèn)題,例如無(wú)監(jiān)督技術(shù)或?qū)W習(xí)真實(shí)圖像退化技術(shù)。然而,他們?nèi)匀灰蕾囉谝恍┨囟ǖ募僭O(shè),即所有圖像都有類(lèi)似的退化。
因此,現(xiàn)實(shí)世界的應(yīng)用仍然是人臉復(fù)原任務(wù)的一個(gè)具有挑戰(zhàn)性的方向。
此外,一些方法表明,人臉恢復(fù)可以提高人臉驗(yàn)證和人臉識(shí)別等后續(xù)任務(wù)的性能。然而,如何在一個(gè)框架中將人臉復(fù)原任務(wù)與這些任務(wù)結(jié)合起來(lái)也是未來(lái)的研究方向。
其他相關(guān)任務(wù)
除了上面討論的人臉復(fù)原任務(wù),還有很多與人臉復(fù)原相關(guān)的任務(wù),包括人臉修飾、照片素描合成、人臉到人臉?lè)g、人臉修復(fù)、顏色增強(qiáng)和舊照片恢復(fù)。
例如,面部修復(fù)旨在通過(guò)匹配或?qū)W習(xí)來(lái)恢復(fù)面部圖像的缺失區(qū)域。它不僅需要在語(yǔ)義上為缺失的面部組件生成新的像素,而且還應(yīng)該保持面部結(jié)構(gòu)和外觀的一致性。老照片修復(fù)是修復(fù)老照片的任務(wù),老照片的退化是相當(dāng)多樣和復(fù)雜的(例如,噪點(diǎn)、模糊和褪色)。
此外,一些任務(wù)側(cè)重于面部風(fēng)格遷移,例如人臉到人臉?lè)g和面部表情分析,這與人臉復(fù)原任務(wù)不同。
因此,將現(xiàn)有的人臉復(fù)原的方法應(yīng)用到這些相關(guān)任務(wù)中,也是一個(gè)很有前景的方向,這可以觸發(fā)更多的應(yīng)用落地。
參考資料:https://arxiv.org/a?bs/2211.02831?