「噪」不住你的美,美圖&國科大聯(lián)合提出人臉修復(fù)方法DiffBFR
盲人臉恢復(fù)(Blind Face Restoration, BFR)旨在從低質(zhì)量的人臉圖像中恢復(fù)高質(zhì)量的人臉圖像,是計(jì)算機(jī)視覺和圖形學(xué)領(lǐng)域的一項(xiàng)重要任務(wù),廣泛應(yīng)用于監(jiān)控圖像修復(fù)、老照片修復(fù)和人臉圖像超分辨率等各種場景。
然而,這項(xiàng)任務(wù)非常具有挑戰(zhàn)性,因?yàn)椴淮_定性退化會損害圖像質(zhì)量以至于損失圖像信息,例如模糊、噪聲、下采樣和壓縮偽影等。以前的 BFR 方法通常依賴于生成對抗網(wǎng)絡(luò) (GAN),通過設(shè)計(jì)各種特定于人臉的先驗(yàn)來解決問題,包括生成先驗(yàn)、參考先驗(yàn)和幾何先驗(yàn)。盡管這些方法達(dá)到了最先進(jìn)的水平,但仍然沒有完全達(dá)到在恢復(fù)細(xì)粒度面部細(xì)節(jié)的同時(shí)獲得逼真紋理這一目標(biāo)。
因?yàn)樵趫D像修復(fù)過程中,人臉圖像的數(shù)據(jù)集通常分散在高維空間中,并且分布的特征維度呈現(xiàn)長尾分布形式。與圖像分類任務(wù)的長尾分布不同,圖像修復(fù)里的長尾區(qū)域特征指的是對身份影響較小,而對視覺效果影響很大的屬性,比如痣、皺紋和色調(diào)等等。
如圖 1 所示,簡單的實(shí)驗(yàn)表明,過去基于 GAN 的方法不能很好地同時(shí)處理位于長尾分布頭部和尾部的樣本,導(dǎo)致修復(fù)圖像會出現(xiàn)明顯的過平滑和細(xì)節(jié)消失問題。而基于擴(kuò)散概率模型 (Diffusion Probistic Models, DPM) 的方法能夠較好地?cái)M合長尾分布,在擬合真實(shí)數(shù)據(jù)分布的同時(shí)保留尾部特征。
圖 1 GAN-based 和 DPM-based 在長尾問題上的測試
來自美圖影像研究院(MT Lab)與中國科學(xué)院大學(xué)的研究者共同提出一種基于 DPM 的盲人臉圖像修復(fù)新方法 DiffBFR,實(shí)現(xiàn)了盲人臉圖像恢復(fù),將低質(zhì)量(low-quality, LQ)的人臉圖像修復(fù)成高質(zhì)量(high-quality, HQ)的清晰圖像。
論文鏈接:https://arxiv.org/abs/2305.04517
該方法探索了兩種生成式模型 GAN 和 DPM 對長尾問題的適應(yīng)性,設(shè)計(jì)合適的人臉修復(fù)模塊來得到更加準(zhǔn)確的細(xì)節(jié)信息,進(jìn)而降低生成式方法帶來的臉部過平滑現(xiàn)象,從而提高修復(fù)精度和準(zhǔn)確性。該論文已被 ACM MM 2023 接收。
DiffBFR:基于 DPM 的盲人臉圖像修復(fù)方法
研究發(fā)現(xiàn),擴(kuò)散模型在避免訓(xùn)練模式崩潰和擬合生成長尾分布方面優(yōu)于 GAN 方法,因此 DiffBFR 利用擴(kuò)散概率模型來增強(qiáng)人臉先驗(yàn)信息的嵌入,基于它在任意分布范圍內(nèi)產(chǎn)生 HQ 圖像的強(qiáng)大能力,選擇 DPM 作為解決方案的基本框架。
針對論文中所發(fā)現(xiàn)的人臉數(shù)據(jù)集上的特征長尾分布,以及過去基于 GAN 方法的過平滑現(xiàn)象,該研究探索合理的設(shè)計(jì)來更好地?cái)M合近似長尾分布,進(jìn)而克服修復(fù)過程中的過平滑問題。通過相同參數(shù)大小的 GAN 和 DPM 在 MNIST 數(shù)據(jù)集上的簡單實(shí)驗(yàn)(如圖 1),該論文認(rèn)為 DPM 方法能夠合理地?cái)M合長尾分布,而 GAN 會過度關(guān)注頭部忽略尾部特征,導(dǎo)致尾部特征不再生成。因此,選擇 DPM 作為 BFR 的一種解決方案。
通過引入兩個(gè)中間變量,DiffBFR 中提出了兩個(gè)具體的修復(fù)模塊,采用兩階段設(shè)計(jì),首先從 LQ 圖像中恢復(fù)身份信息,再根據(jù)真實(shí)人臉的分布增強(qiáng)紋理細(xì)節(jié)。該設(shè)計(jì)由兩個(gè)關(guān)鍵部分組成:
(1)身份恢復(fù)模塊(Identity Restoration Module, IRM):
該模塊用于保留結(jié)果中的人臉細(xì)節(jié)。同時(shí),提出了一種從 LQ 圖像中加入部分噪聲的截?cái)嗖蓸臃椒ǎ〈嗽诜聪蜻^程中以 LQ 圖像為條件,從純高斯隨機(jī)分布去噪的方法。論文從理論上證明了這種變化縮小了 DPM 的理論證據(jù)下界(ELBO),從而恢復(fù)了更多的原始細(xì)節(jié)。在理論證明的基礎(chǔ)上,引入兩個(gè)不同輸入大小的級聯(lián)條件擴(kuò)散模型來增強(qiáng)這種采樣效果,降低直接生成高分辨率圖像的訓(xùn)練難度。同時(shí)進(jìn)一步證明,條件輸入的質(zhì)量越高,越接近真實(shí)數(shù)據(jù)分布,恢復(fù)的圖像越準(zhǔn)確,這也是 DiffBFR 在 IRM 中首先恢復(fù)低分辨率圖像的原因。
(2)紋理增強(qiáng)模塊 (Texture Enhancement Module, TEM):
用于對圖像進(jìn)行紋理打磨。這里引入了一個(gè)無條件擴(kuò)散模型,這是一個(gè)與 LQ 圖像完全無關(guān)的模型,進(jìn)一步使得恢復(fù)結(jié)果看起來更接近真實(shí)圖像數(shù)據(jù)。論文從理論上證明了這種在純 HQ 圖像上訓(xùn)練的無條件擴(kuò)散模型有助于 IRM 在像素級空間中輸出圖像的正確分布,即應(yīng)用該模塊后圖像分布的 FID 低于使用前的 FID,得到的修復(fù)圖像總體上和 HQ 圖像的分布更相似。具體而言,就是利用時(shí)間步長截?cái)嗖蓸?,在保留身份信息的同時(shí)對像素級紋理進(jìn)行打磨。
DiffBFR 的采樣推理步驟如圖 2 所示,采樣推理過程示意圖如圖 3 所示。
圖 2 DiffBFR 方法的采樣推理步驟
圖 3 DiffBFR 方法的采樣推理過程示意圖
實(shí)驗(yàn)結(jié)果
圖 4 BFR 的 GAN-based 方法和 DPM-based 方法的可視化效果比較
圖 5 BFR 的 SOTA 方法的性能比較
圖 6 BFR 的 SOTA 方法的可視化效果比較
圖 7 IRM 和 TEM 在模型中的性能比較可視化
圖 8 IRM 和 TEM 在模型中的性能比較
圖 9 IRM 不同參數(shù)性能比較
圖 10 TEM 不同參數(shù)性能比較
圖 11 DiffBFR 各個(gè)模塊的參數(shù)設(shè)置
總結(jié)
該論文提出了基于擴(kuò)散模型的盲退化人臉圖像恢復(fù)模型 DiffBFR,避免了過去基于 GAN 方法的訓(xùn)練模式崩潰和長尾消失問題。通過將先驗(yàn)嵌入到擴(kuò)散模型中,從隨機(jī)嚴(yán)重退化的人臉圖像中生成高質(zhì)量清晰的恢復(fù)圖像。具體來說,提出了 IRM 和 TEM 兩個(gè)模塊,分別用于還原逼真度和還原真實(shí)細(xì)節(jié)。理論邊界的推導(dǎo)和實(shí)驗(yàn)圖像的演示表明了該模型的優(yōu)越性,并與現(xiàn)有的 SOTA 方法進(jìn)行了定性和定量比較。
研究團(tuán)隊(duì)
本論文由美圖影像研究院(MT Lab)和中國科學(xué)院大學(xué)的研究者們共同提出。美圖影像研究院(MT Lab)成立于 2010 年,是美圖公司致力于計(jì)算機(jī)視覺、深度學(xué)習(xí)、增強(qiáng)現(xiàn)實(shí)等領(lǐng)域的算法研究、工程開發(fā)和產(chǎn)品化落地的團(tuán)隊(duì),成立以來聚焦于計(jì)算機(jī)視覺領(lǐng)域的探索研究,2013 年開始布局深度學(xué)習(xí),為美圖旗下全系軟硬件產(chǎn)品提供技術(shù)支持,同時(shí)面向影像行業(yè)內(nèi)多個(gè)垂直賽道提供針對性 SaaS 服務(wù),通過前沿影像技術(shù)推動美圖 AI 產(chǎn)品生態(tài)發(fā)展,曾先后參與 CVPR、ICCV、ECCV 等國際頂級賽事并斬獲十余項(xiàng)冠亞軍,發(fā)表超 48 篇國際頂級學(xué)術(shù)會議論文。美圖影像研究院(MT Lab)長期深耕影像領(lǐng)域研發(fā),已經(jīng)形成深厚的技術(shù)儲備,在圖片、視頻、設(shè)計(jì)、數(shù)字人領(lǐng)域具有豐富的技術(shù)落地經(jīng)驗(yàn)。