人工智能生成微笑悲傷憤怒驚奇等離散面部屬性利用生成對(duì)抗網(wǎng)絡(luò)簡(jiǎn)介:我們的數(shù)字時(shí)代見(jiàn)證了對(duì)靈活,高質(zhì)量肖像操作的需求飆升,不僅來(lái)自智能手機(jī)應(yīng)用,還來(lái)自攝影行業(yè),電子商務(wù)推廣,電影制作等。人像設(shè)備也得到了廣泛的研究[34] ,5,8,18,1,33]在計(jì)算機(jī)視覺(jué)和計(jì)算機(jī)圖形學(xué)術(shù)界。以前的方法專門用于添加化妝[23,6],執(zhí)行風(fēng)格轉(zhuǎn)移[9,14,24,12],年齡進(jìn)展[42]和表達(dá)操作[1,39]等等。然而,這些方法是針對(duì)特定任務(wù)而定制的,并且不能被傳輸以執(zhí)行連續(xù)和一般的多模態(tài)肖像操作。
最近,生成對(duì)抗網(wǎng)絡(luò)在合成和圖像翻譯中已經(jīng)證明了引人注目的效果[15,38,4,35,44,13],其中[44,40]提出了不成對(duì)圖像翻譯的循環(huán)一致性。在本文中,我們通過(guò)利用額外的面部地標(biāo)信息將這個(gè)想法擴(kuò)展到條件設(shè)置,這些信息能夠捕獲復(fù)雜的表達(dá)變化。通過(guò)這種簡(jiǎn)單而直接的修改產(chǎn)生的好處包括:首先,循環(huán)映射可以有效地防止多對(duì)一映射[44,45],也稱為模式崩潰。在面部/姿勢(shì)操縱的情況下,周期一致性也引起身份保持和雙向操縱,而先前的方法[1]假設(shè)中性面開(kāi)始或單向[26,29],因此在同一域中操縱。其次,不同紋理或樣式的面部圖像被認(rèn)為是不同的模態(tài),當(dāng)前的地標(biāo)檢測(cè)器不適用于那些程式化的圖像。通過(guò)我們的設(shè)計(jì),我們可以對(duì)來(lái)自多個(gè)域的樣本進(jìn)行配對(duì),并在每對(duì)域之間進(jìn)行轉(zhuǎn)換,從而可以間接地在風(fēng)格化的肖像上進(jìn)行地標(biāo)提取。一旦收集了相應(yīng)的數(shù)據(jù),我們的框架也可以擴(kuò)展到化妝/卸妝,老化操作等??紤]到許多面部操作任務(wù)缺乏groundtruth數(shù)據(jù),我們利用[14]的結(jié)果生成偽目標(biāo)以學(xué)習(xí)同時(shí)表達(dá)和模態(tài)操作,但它可以被任何所需的目標(biāo)域替換。
人工智能生成微笑悲傷憤怒驚奇等離散面部屬性利用生成對(duì)抗網(wǎng)絡(luò)貢獻(xiàn):然而,實(shí)現(xiàn)高質(zhì)量的肖像操作仍然存在兩個(gè)主要挑戰(zhàn)。我們建議學(xué)習(xí)單個(gè)發(fā)生器tt,如[7]。但StarGAN [7]處理離散操作,并且在具有不可移除偽像的高分辨率圖像上失敗。為了合成照片般逼真的質(zhì)量圖像(512x512),我們提出了受[37,41]啟發(fā)的多層次平面監(jiān)督,其中不同分辨率的合成圖像在被饋送到多級(jí)鑒別器之前被傳播和組合。其次,為了避免在不同域之間的平移過(guò)程中紋理不一致和偽影,我們將Gram矩陣[9]作為紋理距離的度量集成到我們的模型中,因?yàn)樗遣煌?,并且可以使用反向傳播進(jìn)行端到端的訓(xùn)練。圖1顯示了我們模型的結(jié)果。
廣泛的評(píng)估在數(shù)量和質(zhì)量上都表明,我們的方法在執(zhí)行高質(zhì)量的肖像操作方面與***進(jìn)的生成模型相當(dāng)或更優(yōu)(參見(jiàn)第4.2節(jié))。我們的模型是雙向的,它避免了從中性面或固定域開(kāi)始的需要。此功能還可確保穩(wěn)定的培訓(xùn),身份保護(hù),并可輕松擴(kuò)展到其他所需的域操作。在下一節(jié)中,我們將審查相關(guān)的工作,并指出差異。有關(guān)PortraitGAN的詳細(xì)信息,請(qǐng)參見(jiàn)第3節(jié)。我們?cè)诘?節(jié)中評(píng)估了我們的方法,并在第5節(jié)中總結(jié)了論文。
人工智能生成微笑悲傷憤怒驚奇等離散面部屬性利用生成對(duì)抗網(wǎng)絡(luò)圖像翻譯:我們的工作可以分為圖像翻譯和生成對(duì)抗網(wǎng)絡(luò),其目的是學(xué)習(xí)映射tt:誘導(dǎo)與目標(biāo)域無(wú)法區(qū)分的分布,通過(guò)對(duì)抗訓(xùn)練一對(duì)發(fā)電機(jī)tt和鑒別器。例如,Isola等人。 [13]將圖像作為在配對(duì)樣本上訓(xùn)練的一般圖像到圖像翻譯的條件。后來(lái),Zhu et.al [44]通過(guò)引入循環(huán)一致性損失來(lái)擴(kuò)展[13],以避免匹配訓(xùn)練對(duì)的需要。此外,它還減輕了訓(xùn)練生成對(duì)抗網(wǎng)絡(luò)(也稱為模式崩潰)期間的多對(duì)一映射。受此啟發(fā),我們將這種損失整合到我們的模型中,以便在不同領(lǐng)域之間保持身份。
啟發(fā)我們?cè)O(shè)計(jì)的另一項(xiàng)開(kāi)創(chuàng)性工作是Star-GAN [7],其中目標(biāo)面部屬性被編碼為單熱矢量。在StarGAN中,每個(gè)屬性都被視為一個(gè)不同的域,用于區(qū)分這些屬性的輔助分類對(duì)于監(jiān)督培訓(xùn)過(guò)程至關(guān)重要。與StarGAN不同,我們的目標(biāo)是在像素空間中執(zhí)行無(wú)法使用離散標(biāo)簽枚舉的連續(xù)編輯。這隱含地暗示了平滑且連續(xù)的潛在空間,其中該空間中的每個(gè)點(diǎn)編碼數(shù)據(jù)中有意義的變化軸。我們將不同的樣式形式視為本文中的域,并可互換地使用兩個(gè)單詞。從這個(gè)意義上講,美化/去美化,衰老/年輕,胡須/無(wú)胡須等應(yīng)用也可以納入我們的一般框架。我們將第4節(jié)中針對(duì)Cycle-GAN [44]和StarGAN [7]的方法進(jìn)行了比較,并在第3節(jié)中詳細(xì)說(shuō)明了我們的設(shè)計(jì)。
姿勢(shì)圖像生成:我們知道在人物圖像生成的人重新識(shí)別任務(wù)中使用姿勢(shì)作為條件的作品[36,20,31,29]。例如[26]以通道方式連接單熱姿勢(shì)特征圖來(lái)控制類似于[30]的姿勢(shì)生成,其中鳥(niǎo)類的關(guān)鍵點(diǎn)和分割掩模用于處理鳥(niǎo)類的位置和姿勢(shì)。為了合成更合理的人體姿勢(shì),Siarohin et.al [31]開(kāi)發(fā)了可變形的跳躍連接,并計(jì)算了一組仿射變換來(lái)逼近關(guān)節(jié)變形。這些作品與我們的作品有一些相似之處,因?yàn)槊娌康貥?biāo)和人體骨骼都可以被視為一種姿勢(shì)表現(xiàn)形式。但是,所有這些工作都涉及原始域中的操作,并且不保留身份。此外,這些工作中生成的結(jié)果是低分辨率,而我們的模型可以成功生成具有照片般逼真質(zhì)量的512x512分辨率。
人工智能生成微笑悲傷憤怒驚奇等離散面部屬性利用生成對(duì)抗網(wǎng)絡(luò)整體框架:?jiǎn)栴}公式給定不同模態(tài)的域1,2,3,... n,我們的目標(biāo)是學(xué)習(xí)單個(gè)通用映射函數(shù)tt:Xi→Xj,∀i,j∈{1,2,3,... n}(1)通過(guò)連續(xù)的形狀編輯將A中的A從域A轉(zhuǎn)換為B(圖1)。等式1還暗示tt在給定期望條件下是雙向的。我們使用面部界標(biāo)j R1×H×W來(lái)表示域j中的面部表情。面部表情被表示為具有N = 68的2D關(guān)鍵點(diǎn)的矢量,其中每個(gè)點(diǎn)ui =(xi,yi)是j中的第i個(gè)像素位置。我們使用屬性向量c = [c1,c2,c3,... cn]來(lái)表示目標(biāo)域。形式上,我們的輸入/輸出是形式(IA,LB,cB)/(IB,LA,cA)∈R(3 + 1 + n)×H×W的元組。模型體系結(jié)構(gòu)我們的方法的總體流程很簡(jiǎn)單,如圖2所示,由三個(gè)主要部分組成:(1)生成器tt(,c),其將域c1中的輸入面呈現(xiàn)給給定條件面部標(biāo)記的另一域c2中的同一人。 tt是雙向的,并在前進(jìn)和后退循環(huán)中重復(fù)使用。(2)一組不同分辨率的鑒別器Di,用于區(qū)分生成的樣本和實(shí)際的樣本。 我們采用PatchGAN [44]而不是將I映射到表示“真實(shí)”或“假”的單個(gè)標(biāo)量,而PatchGAN [44]使用完全的convnet輸出矩陣,其中每個(gè)元素Mi,j表示重疊補(bǔ)丁ij為真實(shí)的概率。 如果我們追溯到原始圖像,每個(gè)輸出都有一個(gè)70 70的感受野。 (3)考慮到身份保存和紋理的損失函數(shù)不同域之間的一致性。 在以下小節(jié)中,我們將單獨(dú)詳細(xì)說(shuō)明每個(gè)模塊,然后將它們組合在一起構(gòu)建PortraitGAN。
人工智能生成微笑悲傷憤怒驚奇等離散面部屬性利用生成對(duì)抗網(wǎng)絡(luò)數(shù)據(jù)集訓(xùn)練和驗(yàn)證:Radboud Faces數(shù)據(jù)庫(kù)[19]包含4,824個(gè)圖像,共有67個(gè)參與者,每個(gè)圖像執(zhí)行8個(gè)規(guī)范的情感表達(dá):憤怒,厭惡,恐懼,快樂(lè),悲傷,驚訝,蔑視和中立。 iCV多情感面部表情數(shù)據(jù)集[25]專為微情感識(shí)別(5184x3456分辨率)而設(shè)計(jì),其中包括31,250種表情,表現(xiàn)出50種不同的情緒。 測(cè)試:我們從Youtube(縮寫(xiě)為HRY Dataset)收集20個(gè)高分辨率視頻,其中包含提供語(yǔ)音或地址進(jìn)行測(cè)試的人員。 對(duì)于上述數(shù)據(jù)集,我們使用dlib [17]進(jìn)行面部標(biāo)志性提取,并使用神經(jīng)樣式傳遞算法[14]來(lái)生成多種模態(tài)的肖像。 請(qǐng)注意,在測(cè)試期間,groundtruths僅用于評(píng)估目的。