3D視頻人物肖像生成新突破!港科大、清華等發(fā)布AniPortraitGAN,面部表情、肩部運動全可控
目前用于人類生成相關(guān)的「可動畫3D感知GAN」方法主要集中在頭部或全身的生成,不過僅有頭部的視頻在真實生活中并不常見,全身生成任務(wù)通常不會控制人物的面部表情,并且很難提高生成質(zhì)量。
為了提高視頻化身(video avatar)的可應(yīng)用性,來自港科大、清華等機構(gòu)的研究人員提出了一個新模型AniPortraitGAN,可以生成具有可控面部表情、頭部姿勢和肩部運動的肖像圖像;訓(xùn)練過程只依賴非結(jié)構(gòu)化的2D圖像,無需3D或視頻數(shù)據(jù)。
論文鏈接:https://arxiv.org/pdf/2309.02186.pdf
該方法基于生成輻射流形表征,配備了可學(xué)習(xí)的面部和頭肩變形;引入了一種雙攝像頭渲染和對抗學(xué)習(xí)方案以提高生成的人臉的質(zhì)量,對于人像生成來說至關(guān)重要;開發(fā)了一個姿勢變形處理網(wǎng)絡(luò),以在困難的區(qū)域生成合理的變形,如長發(fā)等。
實驗結(jié)果表明,該方法在非結(jié)構(gòu)化的2D圖像上訓(xùn)練,可以生成不同的和高質(zhì)量的3D肖像與所需的控制不同的屬性。
方法概述
研究人員的目標(biāo)是通過對給定的2D圖像集合進行訓(xùn)練,來生成包含人類頭部和肩部區(qū)域的肖像圖。
模型架構(gòu)與標(biāo)準(zhǔn)GAN類似,對隨機潛碼進行采樣,并將其映射到最終輸出圖像中,其中生成器的輸入包括多個潛碼,對應(yīng)于生成人物的不同屬性以及相機視角,輸出為帶有預(yù)期屬性的人物肖像。
整個過程遵循規(guī)范神經(jīng)輻射(canonical neural radiance)表征與(逆)變形(deformation)相結(jié)合的常用范式。
1. 潛碼
包括用于人物身材的身份編碼(identify code)、用于面部表情的編碼、用于身體和肩膀姿態(tài)的編碼、以及一個額外的噪聲用于控制其他諸如外貌(appearance)等屬性的編碼。
為了實現(xiàn)語義上的可控,研究人員采用之前的3D人體參數(shù)模型,并將二者的潛空間對齊。
具體來說,將身份編碼設(shè)計為3DMM面部身份系數(shù)和SMPL身材系數(shù)的級聯(lián);姿態(tài)編碼是一個簡化的SMPL姿態(tài)參數(shù),包括6個關(guān)節(jié)的聯(lián)合變換:頭部、頸部、左右衣領(lǐng)和左右肩膀;表情編碼與3DMM表情系數(shù)相同。
2. 經(jīng)典輻射流形(Canonical Radiance Manifolds)
研究人員使用輻射流形來表示普通的人類特征(canonical humans),該表征可以控制輻射場在一組3D隱式表面上的學(xué)習(xí)和渲染,能夠生成具有嚴(yán)格多視圖一致性的高質(zhì)量人臉。
具體來說,模型使用三個網(wǎng)絡(luò)來生成輻射:
1)流形預(yù)測MLP以正則空間(canonical space)中的點為輸入,預(yù)測結(jié)果為一個實數(shù)標(biāo)量來定義表面。
2)輻射生成MLP基于身份編碼、噪聲和視圖方向來生成表面點的顏色和透明度。
3)流形超分辨率CNN,將平坦、離散的輻射圖(128*128)上采樣到高分辨率(512*512)輻射圖。
3. 變形域(deformation)
對于目標(biāo)空間中具有預(yù)期頭肩姿勢和面部表情的每個采樣3D點,都應(yīng)用變形操作將其轉(zhuǎn)換到用于輻射檢索的規(guī)范空間。
姿態(tài)變形生成器(pose deformation generator)
結(jié)合SMPL模型,使用其線性混合蒙皮(LBS)方案來引導(dǎo)姿態(tài)變形。
給定形狀編碼和姿態(tài)編碼,可以使用SMPL構(gòu)建姿態(tài)人體網(wǎng)格,為身體表面上的每個頂點提供預(yù)定義的蒙皮權(quán)重向量。
一種將身體變形傳播到整個3D空間的簡單方法是給每個點都分配到最近身體表面頂點的蒙皮權(quán)重,再進行變形;不過這種策略雖然廣泛用于最先進的可動畫人體建模和生成方法,并且可以給出合理的全身合成結(jié)果,但在高分辨率人像合成中存在明顯的視覺缺陷。
對于長頭發(fā)的人類角色,該策略會導(dǎo)致肩膀以上的頭發(fā)區(qū)域出現(xiàn)明顯的變形不連續(xù)性。
研究人員提出了一個可變形體積處理(deformation volume processing)模塊來解決這個問題,對于目標(biāo)空間中,從最近SMPL身體頂點取回的,蒙皮權(quán)重向量為w的一個點x^t,變形后的點可以通過逆LBS計算得到:
經(jīng)過處理后,對變換進行reshape,并將其應(yīng)用于采樣點以完成姿態(tài)變形。
表情變形生成器(Expression Deformation Generator)
研究人員引入了一個由3DMM模型引導(dǎo)的變形場,具體來說,利用MLP對位姿空間(pose-aligned space)中的點進行變形,訓(xùn)練目標(biāo)是根據(jù)3DMM生成帶表情的人臉。
4. 雙相機判別器(Dual-Camera Discriminator)
之前的3D感知頭部GANs已經(jīng)通過仔細(xì)地將生成的和真實的人臉圖像居中對齊以進行訓(xùn)練,已經(jīng)展現(xiàn)出了非常高的人臉生成質(zhì)量。
但頭部區(qū)域是肖像圖的一部分,其空間位置和方向變化很大,簡單地應(yīng)用全圖像鑒別器不能為高質(zhì)量的人臉生成提供足夠的監(jiān)督信號,而高質(zhì)量的人臉生成對于肖像圖是至關(guān)重要的。
一個直接的補救措施是裁剪和對齊渲染圖像中的人臉,并應(yīng)用局部人臉鑒別器,但圖像重采樣算子本質(zhì)上是低通的(low-pass),圖像空間裁剪策略會讓裁剪的人臉更模糊,對GAN的訓(xùn)練是有害的。
研究人員設(shè)計了一個雙攝像頭渲染方案用于GAN訓(xùn)練,除了用于完整人像圖像渲染的主攝像機之外,還添加了另一個用于面部渲染的攝像機,放置在頭部周圍,并指向頭部中心。
模型在設(shè)計上和以前3D感知頭部GANs具有相同的局部坐標(biāo)系,并且位置可以使用變形的SMPL頭部計算。
另一個可能的想法類似2D人體生成方法,混合兩個獨立的面部和身體生成器的輸出,但將這種策略應(yīng)用到3D動畫案例中并不容易。
添加用于訓(xùn)練的專用人臉相機不僅避免了圖像重采樣,并為規(guī)范輻射流形提供了更直接的監(jiān)督,而且還實現(xiàn)了用于對抗性學(xué)習(xí)的更高分辨率的人臉渲染,因此,輻射生成器可以接收到對面部區(qū)域更強的監(jiān)督信號。
5. 訓(xùn)練損失
對抗學(xué)習(xí)(Adversarial Learning)
將具有R1正則化的非飽和GAN損失應(yīng)用于3D感知圖像生成器和所有三個判別器中,根據(jù)經(jīng)驗將平衡權(quán)重分別設(shè)置為whole=0.1、face=1.0和torso=0.5
變形學(xué)習(xí)(Deformation Learning)
使用3D landmark損失和模仿?lián)p失來獲得具有3DMM引導(dǎo)的表情控制,損失強制所生成的人臉圖像具有與用所述輸入身份和表情代碼構(gòu)造的3DMM人臉相似的3D人臉landmark:
其中zid、zexp是使用人臉重建網(wǎng)絡(luò)從生成的圖像估計的3DMM系數(shù),f_lm表示簡單的人臉landmark提取函數(shù)。
在變形模仿上,強制輸入點x^p的位移在3DMM網(wǎng)格跟隨其最近的點x_ref:
再引入幾個變形正則化項:
6. 訓(xùn)練策略
研究人員采用兩階段訓(xùn)練策略來訓(xùn)練模型:
先訓(xùn)練一個低分辨率圖像生成器和相應(yīng)的判別器,面部和肖像分支都生成128×128的圖像,除了流形超分辨率CNN網(wǎng)絡(luò)之外,訓(xùn)練所有的子網(wǎng)絡(luò)。
在第二階段,生成512×512的肖像圖和256×256的人臉,隨機初始化和訓(xùn)練高分辨率鑒別器,凍結(jié)其他子網(wǎng)絡(luò)。
實驗部分
訓(xùn)練數(shù)據(jù)
研究人員通過處理SHHQ數(shù)據(jù)集中的人類圖像來構(gòu)建訓(xùn)練集,原始數(shù)據(jù)集包含4萬張1024×512分辨率的全身圖像。
為了獲得高質(zhì)量的頭肩肖像,首先在SHHQ圖像上擬合SMPL模型,然后裁剪圖像,并使用投影的頭部和頸部關(guān)節(jié)對齊,裁剪后的人像圖像分辨率約為256×256,再使用超分辨率方法將其上采樣到1024×1024后下采樣到512 × 512;最后通過分割蒙版來移除背景。
生成結(jié)果
模型的生成結(jié)果非常多樣且高質(zhì)量,相機視角、面部表情,頭部旋轉(zhuǎn)和肩部姿勢被明確控制。
在控制屬性時,該方法實現(xiàn)了對不同身份的所有四個屬性的一致控制。
實驗對比
研究人員將該方法與三種最先進的三維感知GANs進行了比較:EG3D、GRAM-HD和AniFaceGAN,因為目前還沒有可動畫頭肩肖像生成任務(wù)的模型,所以對比結(jié)果也僅供參考。
可以看到,在完整肖像圖像和面部區(qū)域上評估的FID和KID指標(biāo)中,該方法在人臉方面的得分與EG3D和GRAMHD相當(dāng),在全圖像方面的得分略低。
值得注意的是,雖然EG3D的得分最低,但研究人員發(fā)現(xiàn)該模型經(jīng)常生成較差的幾何形狀:人像表面有時幾乎是平面的,當(dāng)改變視角時,視覺視差是錯誤的。
從視覺上看,文中方法的圖像質(zhì)量與EG3D和GRAM-HD相當(dāng),并且肖像具有正確的幾何形狀,但該方法可以生成和控制更大的區(qū)域。