MDFR:基于人臉圖像復(fù)原和人臉轉(zhuǎn)正聯(lián)合模型的人臉識別方法
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。
在現(xiàn)實(shí)生活中,許多因素可能會影響人臉識別系統(tǒng)的識別性能,例如大姿勢,不良光照,低分辨率,模糊和噪聲等。為了應(yīng)對這些挑戰(zhàn),之前的人臉識別方法通常先把低質(zhì)量的人臉圖像恢復(fù)成高質(zhì)量人臉圖像,然后進(jìn)行人臉識別。然而,這些方法大多是階段性的,并不是解決人臉識別的最優(yōu)方案。
AI 科技評論今天介紹一篇能夠?qū)Υ擞兄芎玫慕鉀Q方案的論文,在本文中,作者提出一種多退化因子的人臉復(fù)原模型(Multi-Degradation Face Restoration,MDFR),來一次性解決所有的這些影響因素。
原文標(biāo)題:《Joint Face Image Restoration and Frontalization For Recognition》
論文地址:https://ieeexplore.ieee.org/document/9427073/
MDFR 可以從給定的多姿態(tài)、多重低質(zhì)量因素影響的人臉圖像中復(fù)原其高質(zhì)量的正面人臉圖像。MDFR是一個設(shè)計良好的編碼器-解碼器網(wǎng)絡(luò)結(jié)構(gòu)。
在模型的構(gòu)建中,作者引入了姿態(tài)殘差學(xué)習(xí)策略,以及一個基于3D的姿勢歸一化模塊(3D-based Pose Normalization Module,PNM),該模塊可以感知輸入人臉姿態(tài)和正面人臉姿態(tài)之間的差異,以此差異來指導(dǎo)人臉的轉(zhuǎn)正學(xué)習(xí)。
實(shí)驗(yàn)表示,訓(xùn)練完成之后的MDFR可以通過一個單一化的網(wǎng)絡(luò),一次性地從多重低質(zhì)量因素影響的側(cè)面人臉圖像中恢復(fù)其高清的正面人臉圖像,并有效的提高人臉?biāo)惴ǖ淖R別率。
1、背景及簡介
非限制條件下的人臉識別方法是計算機(jī)視覺任務(wù)中一項(xiàng)重要的工作。在實(shí)際應(yīng)用中,采集到的人臉圖像可能包含大姿態(tài),不良光照,低分辨率以及模糊和噪聲等,這些影響人臉成像質(zhì)量的因素可能導(dǎo)致人臉識別應(yīng)用的失敗。為了解決這些問題,已經(jīng)有很多方法使用分階段模型來分別處理相應(yīng)的低質(zhì)量因子影響的人臉圖像,即首先將低質(zhì)量人臉恢復(fù)成高質(zhì)量的人臉圖像,隨后進(jìn)行人臉轉(zhuǎn)正并用于人臉識別。
然而這些方法都只考慮了人臉識別的單一因素,很少有方法能夠同時解決影響人臉識別的多重因素。因此,這類基于單一因素的人臉處理方法并不能很好的適用于非限制條件下的人臉識別。在本文中,作者提出了一種解決多退化因子的人臉復(fù)原模型(MDFR),從給定任意姿態(tài)的低質(zhì)量人臉圖像中恢復(fù)出高質(zhì)量正面人臉。
文章的貢獻(xiàn)如下:
- 提出了一種多退化因子人臉復(fù)原模型(Multi-Degradation Face Restoration, MDFR),將給定的任意姿態(tài)和受多重低質(zhì)量因子影響的人臉圖像恢復(fù)為正面且高質(zhì)量的圖像;
- 在人臉轉(zhuǎn)正過程中,使用了姿態(tài)殘差學(xué)習(xí)策略,并且提出了一種基于3D的姿態(tài)歸一化模塊;
- 提出了一種有效的整合訓(xùn)練策略將人臉重建和轉(zhuǎn)正任務(wù)融合到一個統(tǒng)一的網(wǎng)絡(luò)中,該方法能夠進(jìn)一步提升輸出的人臉質(zhì)量和后續(xù)的人臉識別效果;
2、方法描述
MDFR結(jié)構(gòu)如圖1所示。在訓(xùn)練過程中,MDFR主要包含兩個模塊,即雙代理生成器(Dual-Agent Generator)和雙代理判別器(Dual-Agent Discriminator)。姿態(tài)歸一化模型模塊(Pose Normalization Module, PNM)被嵌入到網(wǎng)絡(luò)中對人臉的姿態(tài)進(jìn)行歸一化。
圖1. MDFR模型的結(jié)構(gòu),包括雙代理生成器,姿態(tài)歸一化模型,以及雙代理判別器。
(1)雙代理生成器
雙代理生成器包含一個人臉復(fù)原子網(wǎng)絡(luò)(Face Restoration sub-Net, FRN)和一個人臉轉(zhuǎn)正子網(wǎng)絡(luò)(Face Frontalization sub-Net, FFN)。FRN網(wǎng)絡(luò)的作用是將低質(zhì)量人臉圖像重建為高質(zhì)量人臉圖像,而FFN網(wǎng)絡(luò)將FRN生成的側(cè)臉圖像進(jìn)行轉(zhuǎn)正。其中每個子網(wǎng)絡(luò)均包含一個編碼器和解碼器,前者用來將輸入映射到特征空間,而后者主要將編碼后的特征重建為相應(yīng)的目標(biāo)人臉圖像。兩個子網(wǎng)絡(luò)具有相同的網(wǎng)絡(luò)結(jié)構(gòu),但是輸入有所不同。FRN的編碼器對輸入的人臉圖像進(jìn)行編碼,隨后解碼器對編碼器的特征進(jìn)行解碼。FFN的解碼器的輸入除了人臉的編碼特征外,還包含人臉兩種姿態(tài)的編碼殘差,如圖2所示。
圖2生成網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)
(2)姿態(tài)歸一化模塊
作者設(shè)計了一個姿態(tài)歸一化模塊(PNM)對姿態(tài)進(jìn)行歸一化。PNM提供了標(biāo)準(zhǔn)的、并且尺度統(tǒng)一的真實(shí)正面姿態(tài)來來引導(dǎo)人臉轉(zhuǎn)正。基于3D形變模型(3D Morphable Model, 3DMM),二維人臉圖像對應(yīng)的三維頂點(diǎn)可以通過人臉正交基線性加權(quán)相加而得到:
通過尺度正交映射將三維人臉頂點(diǎn)映射到二維圖像平面,二維側(cè)臉人臉圖像可以表示為:
其中,參數(shù)MDFR :基于人臉圖像復(fù)原和人臉轉(zhuǎn)正聯(lián)合模型的人臉識別方法是相應(yīng)的旋轉(zhuǎn)矩陣,t 為平移向量。當(dāng)移去旋轉(zhuǎn)矩陣和平移向量后,歸一化后真實(shí)轉(zhuǎn)正的人臉密集二維坐標(biāo)可以表述為:
在文章中,作者使用3D人臉轉(zhuǎn)正方法 2DAL 從一張給定的二維人臉圖像中獲取人臉密集坐標(biāo),最后選取18個常用的關(guān)鍵點(diǎn)來生成相應(yīng)的高斯熱力圖(Gaussian Heatmaps)。
(3)雙代理先驗(yàn)引導(dǎo)判別器
在人臉超分辨率領(lǐng)域使用的判別損失能夠很好的提高重建人臉的真實(shí)度。因此,在本文中,作者在判別器中加入兩種額外的先驗(yàn)信息:目標(biāo)人臉的landmarks以及正臉的身份特征圖,使得生成的人臉不僅能夠獲得目標(biāo)姿態(tài),還具有真實(shí)的身份信息。對應(yīng)的判別器分別為PCD(Pose Conditioned Discriminator)以及ICD(Identity Conditioned Discriminator)。
在實(shí)現(xiàn)過程中,作者將兩種先驗(yàn)信息分別作用到輸入判別器中引導(dǎo)人臉的生成,然后再輸入到相應(yīng)的判別器中進(jìn)行判別損失的求解。PCD和ICD不僅可以區(qū)分真實(shí)人臉和生成的人臉,同時可以學(xué)習(xí)到真實(shí)人臉和生成人臉的姿態(tài)和身份差異。
(4)網(wǎng)絡(luò)訓(xùn)練
網(wǎng)絡(luò)的訓(xùn)練主要分為兩個階段:Separate Training和TI Training。
Separate Training:文章首先分別訓(xùn)練FRN和FFN兩個子網(wǎng)絡(luò),兩個訓(xùn)練過程分別簡寫為FRN-S和FFN-S。FRN-S訓(xùn)練過程中所用到的損失函數(shù)如下:
身份信息損失:
重建像素?fù)p失:
總的損失:
FFN-S訓(xùn)練過程中所用到的損失函數(shù)如下:
轉(zhuǎn)正損失:
條件對抗損失:
總的損失:
Task-Integrated (TI) training:在FRN和FFN完成了相應(yīng)的分開訓(xùn)練后,作者在預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行整合訓(xùn)練。在這個階段,作者使用FFN模型的輸出作為ground-truth來訓(xùn)練FRN。同時,使用PNM歸一化后的真實(shí)轉(zhuǎn)正面部landmarks來引導(dǎo)FFN中人臉的轉(zhuǎn)正。為了生成更好的人臉效果,在這一階段作者還使用了特征對齊損失(Feature Alignment Loss, FA),具體的定義如下:
整體的訓(xùn)練損失函數(shù)為:
3、實(shí)驗(yàn)結(jié)果
作者首先探索了不同的網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)的組合來觀察FFN-S和FRN-TI相應(yīng)部分對人臉生成的影響,實(shí)驗(yàn)結(jié)果如圖3所示。
圖3. 消融實(shí)驗(yàn)在Multi-PIE數(shù)據(jù)庫上的對比結(jié)果。
同時,表1展示了 MDFR 的不同變異體對不同姿態(tài)人臉的 rank-1 識別率。在所有的實(shí)驗(yàn)?zāi)P椭?,F(xiàn)FN-S 和 FRN-TI 均獲得了最好的精度。
表2列舉了 FFN-S 和 FRN-TI 同其他方法在 Multi-PIE 數(shù)據(jù)集上人臉識別率的比較。FFN-S 在所有的姿態(tài)中獲得了最好的效果,其次是FFN-TI。當(dāng)姿態(tài)角度在±45°以內(nèi)時,F(xiàn)FN-S 和FFN-TI獲得了同 CAPG-GAN 相似的識別效果。但當(dāng)姿態(tài)角度大于±45°時,F(xiàn)FN-S 和 FFN_TI 的效果要顯著的好于 CAPG-GAN。
圖4. 不同方法在多重低質(zhì)量因素影響下的人臉復(fù)原效果
作者在多重低質(zhì)量因素影響的人臉圖像上進(jìn)行相應(yīng)的驗(yàn)證,包括低分辨率、不良光照、噪聲以及模糊。實(shí)驗(yàn)表明,文章提到的方法不僅可以充分應(yīng)對多種低質(zhì)量因子,而且都可以生成相應(yīng)的高質(zhì)量人臉圖像。圖4展示了不同方法在多重低質(zhì)量因素影響下的人臉復(fù)原效果。可以看出不同于之前只能處理單一的任務(wù)的方法,文中所提出的方法既可以對人臉進(jìn)行轉(zhuǎn)正也可以進(jìn)行高質(zhì)量復(fù)原,且取得了最好的視覺效果。