自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

人臉隨意編輯!Adobe祭出新一代GAN神器:最多支持35人臉屬性變化

人工智能 人臉識別 新聞
最近Adobe提出新一代GAN模型,能夠自由控制35個人臉屬性的變化,而不會互相干擾。

圖像合成中的一個重要問題就是圖像內(nèi)的糾纏(entanglement)問題。

比如把一個人臉上的胡子全都自動去掉,或者完美地貼上胡子,最后生成的圖片或多或少都有違和感,因為胡子和人臉存在某種糾纏的關(guān)系。

并且不同物體間的合成、去除的難度也不盡相同。

舉幾個生活中的例子就很好理解了,從牛肉面里挑出來香菜,和挑牛肉出來的難度相差很大;想從咖啡里面把糖都挑出來,那就簡直是不可能完成的任務(wù)了。

有些東西天生就是捆綁在一起的,想要完美的新建、合成一張新圖像,機(jī)器學(xué)習(xí)模型必須能夠?qū)W會創(chuàng)建各種各樣的物體,并且最好能夠分離出不同的特征和概念。

如果模型能把年齡、性別、頭發(fā)顏色、膚色、情緒等分出來,那你就可以在一個框架中隨意修改這些組件,更加靈活地控制生成圖像,在更加細(xì)化的水平上創(chuàng)建和編輯人臉等圖像,能夠完美避開圖像的糾纏關(guān)系。

在所有實體最大糾纏的情況下,圖像實際上進(jìn)行的就是分類任務(wù),例如模型識別出是Lady Gaga的一張照片。

中等糾纏情況下,模型可以進(jìn)一步分解照片,發(fā)現(xiàn)她是金頭發(fā)、微笑的表情等等,GAN模型就可以根據(jù)這些信息進(jìn)行修改,并生成新圖像。

完全解糾纏的狀態(tài)下,模型能夠進(jìn)一步識別出特征,比如年齡,微笑程度等等。

在過去的幾年中,已經(jīng)有很多人嘗試創(chuàng)建交互式臉部編輯模型,用戶可以通過滑塊或者其他傳統(tǒng)的用戶界面交互來改變圖片的臉部特征,并且在進(jìn)行添加或改變面部特征時保持目標(biāo)人臉的核心特征不變。

然而,由于GAN潛空間中的潛特征和風(fēng)格糾纏現(xiàn)象,所以想要任意編輯人臉特征,技術(shù)還不成熟。

例如,眼鏡特征經(jīng)常與老年人的特征糾纏在一起,這意味著增加眼鏡可能也會使臉部「老化」,而想要讓臉部老化,可能也會為面部增加一個眼鏡,具體取決于高層特征的應(yīng)用分離程度。

最難的是改變頭發(fā)的顏色和發(fā)型,幾乎不可能在不重新計算發(fā)絲和面部布局的情況下給人物「理發(fā)」。

一次訓(xùn)練,隨意換臉

最近,Adobe在WACV2022會議上發(fā)表了一篇新論文,提供了一個解決這些基本問題的新方法。在StyleGAN生成的圖像中,用于保護(hù)身份的多重面部屬性編輯的學(xué)習(xí)映射器。

論文地址:

https://openaccess.thecvf.com/content/WACV2022/papers/Khodadadeh_Latent_to_Latent_A_Learned_Mapper_for_Identity_Preserving_Editing_WACV_2022_paper.pdf

論文的主要作者是Adobe的應(yīng)用科學(xué)家Siavash Khodadadeh,同時還有其他四位Adobe研究人員,以及中佛羅里達(dá)大學(xué)計算機(jī)科學(xué)系的一位研究人員。

這篇論文很有意思,部分原因是Adobe已經(jīng)在圖像合成領(lǐng)域研發(fā)了一段時間,而且和Adobe公司的產(chǎn)品很契合,這種功能在未來幾年內(nèi)很有可能包裝進(jìn)Adobe Creative Suite項目;但主要還是因為為這個項目提出的架構(gòu)采取了不同的方法,在應(yīng)用變化的同時保持GAN面部編輯器的視覺完整性。

作者宣稱他們訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)來執(zhí)行潛意識到潛意識的轉(zhuǎn)換,找到與屬性改變的圖像相對應(yīng)的潛編碼。由于該技術(shù)是one-shot的,它不依賴于屬性逐漸變化的線性或非線性軌跡。

通過在整個生成pipeline上端對端訓(xùn)練網(wǎng)絡(luò),該系統(tǒng)可以適應(yīng)現(xiàn)有的生成器架構(gòu)的潛空間,并能夠保護(hù)屬性(Conservation properties),如人的身份特征可以在訓(xùn)練損失中進(jìn)行編碼。

一旦latent-to-latent網(wǎng)絡(luò)訓(xùn)練完,就可以用于任意的圖像輸入,而不需要微調(diào)。

這個特性也意味著文中提出的架構(gòu)可以把模型一次性部署到用戶終端,但它仍然需要本地資源運(yùn)行一個神經(jīng)網(wǎng)絡(luò),但新的圖像可以直接丟到模型里去,并可以隨意變化。因為框架是解耦的,也不需要進(jìn)一步的特定圖像訓(xùn)練。

這項工作的主要成果之一就是網(wǎng)絡(luò)可以通過只改變目標(biāo)向量中的屬性來「凍結(jié)」?jié)摽臻g中的身份特征。

從本質(zhì)上講,網(wǎng)絡(luò)被嵌入到一個更通用的架構(gòu)中,可以協(xié)調(diào)所有的處理元素,這些元素通過預(yù)先訓(xùn)練好的具有凍結(jié)權(quán)重的組件,不會對轉(zhuǎn)換產(chǎn)生不必要的橫向影響。

由于訓(xùn)練過程依賴于可以由種子圖像(GAN inversion)或現(xiàn)有的初始潛編碼產(chǎn)生的triplets,所以整個訓(xùn)練過程是無監(jiān)督的,這類系統(tǒng)中習(xí)慣性的一系列標(biāo)簽和curation系統(tǒng)的能夠得到有效處理。系統(tǒng)中使用的是現(xiàn)成的屬性回歸器(attribute regressors)。

作者在文中表示,該網(wǎng)絡(luò)能夠獨(dú)立控制的屬性數(shù)量只受到識別器能力的限制,如果你有一個屬性的識別器,就可以把它添加到任意的面孔上。在文中實驗,研究人員直接訓(xùn)練了一個能調(diào)整35個不同的面部屬性的latent-to-latent網(wǎng)絡(luò),比以前的任何方法都要多。

該系統(tǒng)還納入了一個額外的保障措施,以防止不想要的「副作用」轉(zhuǎn)換:在沒有要求改變屬性的情況下,latent-to-latent網(wǎng)絡(luò)會將一個latent向量映射到自己身上,進(jìn)一步增加目標(biāo)身份的穩(wěn)定持久性。

在過去幾年里,基于GAN和編碼器/解碼器的人臉編輯器的l另一個反復(fù)出現(xiàn)的問題是,使用的變換方法往往會降低臉部相似度。

為了解決這個問題,Adobe項目使用了一個名為FaceNet的嵌入式面部識別網(wǎng)絡(luò)作為判別器,可以將標(biāo)準(zhǔn)的面部識別甚至表情識別系統(tǒng)整合到生成網(wǎng)絡(luò)中。

該框架的另一個主要特點(diǎn)是能夠在潛空間任意轉(zhuǎn)換。通過提高GAN的空間意識,可以在潛過渡點(diǎn)范圍內(nèi)(range of potential transition points)進(jìn)行圖像修改,但如EQGAN等模型在面對不同材質(zhì)、紋理的修改時,都需要重新訓(xùn)練模型。

除了可以接受全新的用戶圖像外,用戶還可以手動「凍結(jié)」他們希望在轉(zhuǎn)換過程中保留的元素。通過這種方式,用戶可以確保背景等無關(guān)因素不發(fā)生變化、

屬性回歸網(wǎng)絡(luò)由三個網(wǎng)絡(luò)組成:FFHQ、CelebAMask-HQ和一個由StyleGAN-V2的Z空間采樣40萬個向量而產(chǎn)生的局部GAN網(wǎng)絡(luò)。

分布外(Out-of-distribution, OOD)的圖像被過濾掉,并使用微軟的人臉API提取屬性,所得的圖像集被分成90/10,剩下72萬張訓(xùn)練圖像和7.2萬張測試圖像進(jìn)行對比。

實驗網(wǎng)絡(luò)的初始配置可以容納35個潛變換的方式,但為了對類似的框架InterFaceGAN、GANSpace和StyleFlow進(jìn)行類似的測試,轉(zhuǎn)換數(shù)簡化為8個,分別為年齡、禿頭、胡須、表情、性別、眼鏡、音高和偏角(Yaw).

實驗結(jié)果和預(yù)期相符,在其他競爭的模型架構(gòu)中,圖像合成的結(jié)果出現(xiàn)了更大程度的糾纏。例如,在一個測試中,當(dāng)用戶要求改變?nèi)宋锬挲g時,InterFaceGAN和StyleFlow甚至把主體的性別都給變了。

最后量化的實驗結(jié)果中可以看到,除了在Yaw(頭部角度)的實驗中,Latent-to-Latent的效果并不理想,其余七個屬性的性能基本都處于sota序列。而GANSpace對于年齡和眼鏡變化的效果則更優(yōu)。

? 人臉隨意編輯!Adobe祭出新一代GAN神器:最多支持35人臉屬性變化 ?

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2012-10-12 09:44:09

AdobeAcrobat XI

2009-03-20 11:12:32

HX 路由器產(chǎn)品Hughes

2021-11-10 15:13:45

人臉識別人工智能數(shù)據(jù)

2012-08-30 09:34:08

VMware

2010-12-14 12:48:43

SafeNetPKI應(yīng)用程序虛擬環(huán)境

2015-02-04 11:06:39

VMware

2011-04-28 20:37:12

2015-11-23 17:58:25

疊云

2013-12-12 14:14:15

戴爾

2011-07-11 17:33:36

華為TP3106智真系統(tǒng)

2017-04-12 16:05:24

思科MDS存儲網(wǎng)絡(luò)導(dǎo)向器

2014-05-13 13:33:33

2023-03-16 10:04:11

機(jī)器人數(shù)字孿生

2021-11-03 13:32:28

MetaFacebook人臉識別

2014-12-15 10:43:19

戴爾

2015-10-12 14:44:36

移動圖像

2021-11-01 16:03:09

潮數(shù)科技

2010-04-28 11:15:29

2021-08-07 07:56:09

Windows 11操作系統(tǒng)微軟
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號