去除雙下巴有奇招,浙大00后本科生全新美顏算法登上ACM SIGGRAPH
隨著社交網(wǎng)絡、直播以及短視頻的流行,為了給別人留下更好的印象,人臉編輯「美顏」的應用范圍越來越廣泛,不斷發(fā)展的科學技術使人臉編輯產生了非常多的研究分支。其中,生成對抗網(wǎng)絡(GAN)的隱空間一直是個熱點問題,現(xiàn)在越來越多的工作把注意力放在隱碼的操控和隱空間中的語義解耦上。StyleGAN 是一種可生成高質量人臉圖像的生成對抗網(wǎng)絡,其隱空間具有非常好的線性特性。利用 StyleGAN 的這一特征可以實現(xiàn)高質量、應用場景廣泛的人臉編輯。但是,如何在改變特定特征的同時保持其它無關特征不變,即進行特征的解耦,仍然是一個難題。
為解決這一問題,浙江大學計算機輔助設計與圖形學國家重點實驗室和浙江大學-騰訊游戲智能圖形創(chuàng)新技術聯(lián)合實驗室可研究者們提出了訓練 StyleGAN 隱空間中精細的分離邊界的方法,僅用一個向量就能在保持其它面部特征不變的情況下進行語義特征編輯。
以去除雙下巴為例,該方法效果顯著:
圖 1:具有雙下巴的肖像圖像(第一排),去除雙下巴后的新肖像(第二排)。
該研究的論文《Coarse-to-Fine: Facial Structure Editing of Portrait Images via Latent Space Classifications》已被計算機圖形學頂級國際學術會議 ACM SIGGRAPH 2021 接收。
論文地址:http://www.cad.zju.edu.cn/home/jin/sig2021/sig2021.htm
研究方向
在 CV 領域里,生成對抗網(wǎng)絡的隱空間一直是個熱點問題,現(xiàn)在越來越多的工作把注意力放在隱碼的操控上。InterFaceGAN 探究了生成對抗網(wǎng)絡的隱空間是怎么進行編碼的,并且提出了使用一個分離邊界對語義屬性進行編輯的方法;In-domain GAN 能夠將輸入的圖像反轉到生成對抗網(wǎng)絡的隱空間中,并且作為正則器對隱碼進行微調,并提出一種語義擴散的方法。
鑒于隱空間對于 StyleGAN 研究的重要性,越來越多的工作開始關注如何高效、高質量地將圖像反轉回 StyleGAN 的隱空間中,并得到相應的隱碼;在此基礎上,基于 StyleGAN 的投影器可以將圖像直接反轉回隱空間,從而進行圖像到圖像的轉換,實現(xiàn)人臉姿態(tài)改變、人臉之間的線性插值等等功能,Image2StyleGAN 能夠將圖像反轉回隱空間并且進行語義編輯。
將隱碼和 3D 模型結合也可以參數(shù)化調整人臉特征,GIF 在一種生成 3D 人臉模型(FLAME)上應用 StyleGAN,從而對生成的圖像進行顯式控制;StyleRig 則基于 StyleGAN 和 3DMM 進行面部綁定控制,參數(shù)化調整人臉。
研究思想
新研究的核心思想是訓練 StyleGAN 隱空間中精細的分離邊界。分離邊界是由 InterFaceGAN 提出的一種隱空間中的超平面,但是 InterFaceGAN 訓練出的分離邊界無法分離無關特征。本文提出精心設計的訓練流程,生成成對的僅有特定特征改變的隱碼(在去除雙下巴的例子中,這些隱碼除了有無雙下巴外,其它特征基本保持一致),從這些成對隱碼中訓練精細的分離邊界,從而實現(xiàn)面部結構編輯。
該研究首先訓練一個雙下巴分類器,根據(jù)雙下巴的有無,對 StyleGAN 的隱空間中的隱碼進行評分,隨后使用隨機采樣的隱碼及其對應的下巴評分進行訓練,得到一個粗糙的分離邊界,用來合成沒有雙下巴的中間肖像。在這過程中,其它面部特征,如人臉形狀和姿勢,在被粗糙的分離邊界編輯后不能很好地保存。
為了解決這一問題,該研究引入了一種語義擴散方法,利用能將雙下巴特征從其它特征中分離出來的頸部掩膜,將中間人像的新下巴的語義擴散到原始圖像中,從而得到沒有雙下巴且保持了面部特征的肖像圖像及其對應的隱碼。最后,該研究利用成對的有雙下巴和沒有雙下巴的隱碼訓練出一個精細的雙下巴分離邊界。
在測試階段,利用精細的雙下巴分離邊界編輯輸入的隱碼,并且用圖像形變算法優(yōu)化輸入和輸出的圖像在人臉邊緣處細微的錯位(misalignment),得到最終結果。
圖 2:該研究的流程圖,詳情請參見論文原文。
結果展示
該研究在大量的肖像圖像上測試了方法的性能,這些肖像圖像有不同的性別、姿勢、臉部形狀、膚色。圖 3 展示了由該研究提出的方法自動生成的結果。
以去除雙下巴為例,該方法可成功地去除輸入肖像圖像的雙下巴,同時很好地保持其它特征不變。
圖 3:該研究的結果。前四行為參數(shù)連續(xù)調整的結果,后四行的每對圖像中,左圖為原圖,右圖為得到的結果。
與當前最優(yōu)的面部編輯方法(SOTA)相比,該研究產生了更穩(wěn)定和合理的結果,保持了面部特征的不變性,并且符合人臉結構。
圖 4:方法對比。第一行為輸入肖像圖像,第二行為 MaskGAN 的結果,第三行為 SC-FEGAN 的結果,第四行為 Generative Inpainting 方法的結果,最后一行為我們方法的結果。
研究人員希望該研究能夠為人臉編輯帶來新的思路,同時希望給 StyleGAN 的隱空間研究帶來啟發(fā)。
作者簡介
論文第一作者吳奕謙,女,21 歲,浙江大學大四本科生,將在今年 9 月于浙江大學 CAD&CG 國家重點實驗室直接攻讀博士。研究方向是計算機視覺、人臉編輯。
個人主頁:https://onethousandwu.com/
論文作者楊永亮,英國巴斯大學副教授。2009 年于清華大學計算機科學與技術系獲得博士學位,2009-2011 年為阿卜杜拉國王科技大學 (KAUST) 博士后研究員,2011 年 9 月至 2014 年 8 月在 KAUST 視覺計算中心擔任助理研究員。發(fā)表 Siggraph、Siggraph Asia 論文 9 篇。主要研究方向為數(shù)字幾何處理、虛擬現(xiàn)實和人工智能。
個人主頁:http://www.yongliangyang.net/
論文作者肖欽杰,浙江大學 CAD&CG 國家重點實驗室博士研究生,本科畢業(yè)于浙江大學數(shù)學系,研究方向是三維人臉重建、評估與編輯。
論文通訊作者金小剛,浙江大學計算機科學與技術學院教授,博士生導師。“十三五”國家重點研發(fā)計劃首席科學家,浙江大學 - 騰訊游戲智能圖形創(chuàng)新技術聯(lián)合實驗室主任,浙江省虛擬現(xiàn)實產業(yè)聯(lián)盟理事長,中國計算機學會虛擬現(xiàn)實與可視化專委會副主任委員,杭州錢江特聘專家。第九屆霍英東青年教師基金、浙江省杰出青年基金獲得者,入選教育部新世紀優(yōu)秀人才支持計劃。在 ACM TOG (Proc. of Siggraph)、IEEE TVCG 等國際重要學術刊物上發(fā)表論文 140 多篇。2008 年獲教育部高等學??茖W研究優(yōu)秀成果獎自然科學獎一等獎,2017 年獲浙江省科技進步二等獎,2015 年獲美國 ACM Recognition of Service Award 獎。獲國際計算機動畫學術會議 CASA'2017、CASA'2018 最佳論文獎,《計算機真實感圖形的算法基礎》獲 2001 年國家科技圖書二等獎。
個人主頁:http://www.cad.zju.edu.cn/home/jin/