自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

錯(cuò)誤率降低44%!紐約大學(xué)最新「人臉生成」可讓年齡隨意變化:從少年到老年全覆蓋

人工智能 新聞
只需幾張圖像,用文本即可生成任意年齡圖像,用戶反饋準(zhǔn)確率達(dá)80%!

當(dāng)下的「人臉識(shí)別系統(tǒng)」抗衰老能力非常弱,人物面部老化會(huì)顯著降低識(shí)別性能,隔一段時(shí)間就需要更換人臉數(shù)據(jù)。

圖片

提升人臉識(shí)別系統(tǒng)的魯棒性需要收集個(gè)體老化的高質(zhì)量數(shù)據(jù),不過(guò)近幾年發(fā)布的數(shù)據(jù)集規(guī)模通常較小,年限也不夠長(zhǎng)(如5年左右),或是在姿態(tài)、照明、背景等方面有較大變化,沒(méi)有專注于人臉數(shù)據(jù)。

最近,紐約大學(xué)的研究人員提出了一種通過(guò)隱擴(kuò)散模型保留不同年齡身份特征的方法,并且只需要少樣本訓(xùn)練,即可直觀地用「文本提示」來(lái)控制模型輸出。

論文鏈接:https://arxiv.org/pdf/2307.08585.pdf

研究人員引入了兩個(gè)關(guān)鍵的組件:一個(gè)身份保持損失,以及一個(gè)小的(圖像,描述)正則化集合來(lái)解決現(xiàn)有的基于GAN的方法所帶來(lái)的限制。

在兩個(gè)基準(zhǔn)數(shù)據(jù)集CeleA和AgeDB的評(píng)估中,在常用的生物特征忠誠(chéng)度(biometric fidelity)指標(biāo)上,該方法比最先進(jìn)的基線模型在錯(cuò)誤不匹配率上降低了約44%

追蹤人臉的年齡變化

DreamBooth

文中提出的方法基于潛擴(kuò)散模型DreamBooth,其可以通過(guò)對(duì)文生圖擴(kuò)散模型微調(diào)的方式將單個(gè)主體放置在其他上下文(re-contextualization)中。

Dreambooth的輸入要求為目標(biāo)主體多張圖像,以及包含主體的唯一標(biāo)識(shí)符和類標(biāo)簽(class label)的文本提示,其中類標(biāo)簽是多個(gè)實(shí)例的集合表示,主體對(duì)應(yīng)于屬于該類的特定示例。

Dreambooth的目標(biāo)是將唯一標(biāo)識(shí)符與每個(gè)主體(類的特定實(shí)例)相關(guān)聯(lián),然后在文本提示的指導(dǎo)下,在不同的上下文中重新創(chuàng)建同一主體的圖像。

類標(biāo)簽需要利用指定類別預(yù)訓(xùn)練擴(kuò)散框架的先驗(yàn)知識(shí),如果類別標(biāo)簽不正確或丟失可能會(huì)導(dǎo)致輸出質(zhì)量下降,唯一token充當(dāng)對(duì)特定主題的引用,并且需要足夠少見(jiàn)以避免與其他常用概念沖突。

原文作者使用了一組少于3個(gè)Unicode字符序列作為token,并用T5-XXL作為分詞器。

DreamBooth使用類別先驗(yàn)保存損失(class-specific prior preservation loss)來(lái)增加生成圖像的可變性,同時(shí)確保目標(biāo)對(duì)象和輸出圖像之間的偏差最小,原始訓(xùn)練損失如下:

DreamBooth在先驗(yàn)保存的幫助下可以有效地合成狗、貓、卡通等主體圖像,不過(guò)這篇論文中主要關(guān)注的是結(jié)構(gòu)更復(fù)雜、紋理也偏細(xì)節(jié)的人臉圖像。

雖然類標(biāo)簽「person」可以捕獲類似人類的特征,但這可能不足以捕獲因個(gè)體差異而形成的身份特征。

所以研究人員在損失函數(shù)中引入了一個(gè)身份保存(identity-preserving)項(xiàng),可以最小化原始圖像和生成圖像生物特征之間的距離,并用新的損失函數(shù)微調(diào)VAE。

公式中的第三項(xiàng)代表被拍攝物體的真實(shí)圖像和生成圖像之間生物特征距離,其中B代表兩張圖像的L1距離,相同的圖像距離接近0,值越大代表兩個(gè)主體的差異越大,使用預(yù)訓(xùn)練VGGFace作為特征抽取器。

圖片

下一步是針對(duì)特定目標(biāo)進(jìn)行微調(diào),使用凍結(jié)的VAE和文本編碼器,同時(shí)保持U-Net模型解凍。

圖片

UNet對(duì)VAE的編碼器產(chǎn)生的潛在表征進(jìn)行去噪,使用身份保持對(duì)比損失進(jìn)行訓(xùn)練。

研究人員采用SimCLR框架,使用正負(fù)樣本對(duì)之間的歸一化溫標(biāo)交叉熵?fù)p失(temperature-scaled cross-entropy loss)來(lái)增強(qiáng)潛在表征,即下式中的S函數(shù)。

圖片

在加權(quán)項(xiàng)λs=0.1且溫度值=0.5的情況下,計(jì)算無(wú)噪聲輸入(z0)和去噪聲輸出(zt)的潛在表征之間的對(duì)比損失。

U-Net架構(gòu)中潛在表征之間的對(duì)比損失使得模型能夠微調(diào)不同主體的擴(kuò)散模型。

除了定制損失外,研究人員還使用正則化集將面部年齡發(fā)展(progression)和回歸(regression)的概念賦給潛在擴(kuò)散模型,其中正則化集合包括一個(gè)類別中所有代表性的圖像,在本例中為person.

如果目標(biāo)是生成真實(shí)的人臉圖像,那從互聯(lián)網(wǎng)上選擇人臉圖像的正則化集就足夠了。

不過(guò)本文中的任務(wù)是讓模型學(xué)習(xí)衰老和返老還童的概念,并且還要應(yīng)用到不同的個(gè)體上,所以研究人員選擇使用不同年齡組的人臉圖像,然后將其與一個(gè)單詞描述(one-word caption)進(jìn)行配對(duì)。

圖像描述對(duì)應(yīng)于六個(gè)年齡組 :兒童(child)、青少年(tennager)、年輕人(youngadults)、中年人(middleaged)、中老年人(elderly)、老年人(old )。

相比數(shù)字提示(20歲、40歲),年齡描述的性能更好,并且可以在推理中用文本來(lái)提示擴(kuò)散模型((photo of a ? token ? ? class label ? as ? age group ?)

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)設(shè)置

研究人員使用Stable Diffusion v1.4實(shí)現(xiàn)的DreamBooth進(jìn)行實(shí)驗(yàn),使用CLIP文本編碼器(在laion-aesthetics v2 5+上訓(xùn)練)和矢量量化VAE來(lái)完成年齡變化,在訓(xùn)練擴(kuò)散模型時(shí),文本編碼器保持凍結(jié)狀態(tài)。

研究人員使用來(lái)自CelebA數(shù)據(jù)集100名受試者的2258張人臉圖像和來(lái)自AgeDB數(shù)據(jù)集100名受試者的659張圖像構(gòu)成訓(xùn)練集。

除了二元屬性「Young」之外,CelebA數(shù)據(jù)集沒(méi)有受試者的年齡信息;AgeDB數(shù)據(jù)集包含精確年齡值,研究人員選擇圖像數(shù)量最多的年齡組,并將其用作訓(xùn)練集,其余圖像則用于測(cè)試集(共2369幅圖像)。

研究人員使用(圖像,描述)數(shù)據(jù)對(duì)作為正則化集,其中每個(gè)人臉圖像與指示其相應(yīng)年齡標(biāo)簽的標(biāo)題相關(guān)聯(lián),具體兒童<15歲、青少年15-30歲、年輕人30-40歲、中年人40-50歲、中老年人50-65歲、老年人>65歲,使用四個(gè)稀少token作為標(biāo)記:wzx, sks, ams, ukj

對(duì)比結(jié)果

研究人員使用IPCGAN、AttGAN和Talk-toEdit作為評(píng)估對(duì)比基線模型。

由于IPCGAN是在CACD數(shù)據(jù)集上訓(xùn)練的,所以研究人員對(duì)來(lái)自CACD數(shù)據(jù)集的62名受試者進(jìn)行了微調(diào),可以觀察到FNMR=2%,而文中提出的方法FNMR( False NonMatch Rate)=11%

可以看到IPCGAN默認(rèn)情況無(wú)法執(zhí)行老化或變年輕的操作,導(dǎo)致FNMR值很低。

研究人員使用DeepFace年齡預(yù)測(cè)器進(jìn)行自動(dòng)年齡預(yù)測(cè),可以觀察到,與原始圖像和IPCGAN生成的圖像相比,文中方法合成的圖像會(huì)讓年齡預(yù)測(cè)得更分散,表明年齡編輯操作已經(jīng)成功。

圖片

在CelebA數(shù)據(jù)集上應(yīng)用AttGAN和對(duì)話編輯時(shí),在圖像對(duì)比和生物特征匹配性能上,可以觀察到,在FMR=0.01時(shí),文中方法在「young」類別的圖像上優(yōu)于AttGAN 19%,在「old」類別圖像上優(yōu)于AttGAN 7%

用戶研究

研究人員收集了26份用戶反饋,rank-1生物特征識(shí)別準(zhǔn)確率(響應(yīng)總數(shù)的平均值)達(dá)到了78.8%,各年齡組的正確識(shí)別準(zhǔn)確率分別為:兒童=99.6%、青少年=72.7%、青少年=68.1%、中年=70.7%、老年人=93.8%

也就是說(shuō),用戶能夠以相當(dāng)高的準(zhǔn)確度成功地區(qū)分來(lái)自不同年齡組的生成圖像。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-09-05 11:48:33

2023-08-08 12:34:18

ChatGPT人工智能

2020-10-23 14:14:54

語(yǔ)音識(shí)別ASR錯(cuò)誤率

2024-05-14 09:22:51

模型技術(shù)

2022-03-09 14:53:57

人臉識(shí)別模型Adobe

2021-03-29 15:04:31

數(shù)據(jù)AI技術(shù)

2017-03-01 09:00:31

亞馬遜AWSAWS S3云計(jì)算宕機(jī)

2022-07-19 16:23:00

數(shù)據(jù)谷歌

2011-11-18 10:18:06

思杰

2016-07-24 00:04:38

無(wú)線網(wǎng)絡(luò)建設(shè)

2021-09-27 09:40:30

深度學(xué)習(xí)算力人工智能

2011-03-18 14:13:56

安全意識(shí)安全培訓(xùn)

2011-08-17 15:23:37

iPhone開發(fā)Objective-CCocoa Touch

2023-08-11 10:50:12

ChatGPT

2020-07-24 21:38:01

AI人臉識(shí)別禁止

2023-10-31 12:23:17

GPT-4版本VLM

2021-12-28 18:31:33

人工智能AI開發(fā)

2017-08-28 09:16:27

識(shí)別水平人類

2023-08-05 13:53:34

2022-02-04 23:12:54

Windows 11Windows微軟
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)