自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

錯(cuò)誤率降低44%！紐約大學(xué)最新「人臉生成」可讓年齡隨意變化：從少年到老年全覆蓋

作者：新智元 2023-09-06 13:18:00

人工智能新聞

只需幾張圖像，用文本即可生成任意年齡圖像，用戶反饋準(zhǔn)確率達(dá)80%！

當(dāng)下的「人臉識(shí)別系統(tǒng)」抗衰老能力非常弱，人物面部老化會(huì)顯著降低識(shí)別性能，隔一段時(shí)間就需要更換人臉數(shù)據(jù)。

提升人臉識(shí)別系統(tǒng)的魯棒性需要收集個(gè)體老化的高質(zhì)量數(shù)據(jù)，不過(guò)近幾年發(fā)布的數(shù)據(jù)集規(guī)模通常較小，年限也不夠長(zhǎng)（如5年左右），或是在姿態(tài)、照明、背景等方面有較大變化，沒(méi)有專注于人臉數(shù)據(jù)。

最近，紐約大學(xué)的研究人員提出了一種通過(guò)隱擴(kuò)散模型保留不同年齡身份特征的方法，并且只需要少樣本訓(xùn)練，即可直觀地用「文本提示」來(lái)控制模型輸出。

論文鏈接：https://arxiv.org/pdf/2307.08585.pdf

研究人員引入了兩個(gè)關(guān)鍵的組件：一個(gè)身份保持損失，以及一個(gè)小的（圖像，描述）正則化集合來(lái)解決現(xiàn)有的基于GAN的方法所帶來(lái)的限制。

在兩個(gè)基準(zhǔn)數(shù)據(jù)集CeleA和AgeDB的評(píng)估中，在常用的生物特征忠誠(chéng)度（biometric fidelity）指標(biāo)上，該方法比最先進(jìn)的基線模型在錯(cuò)誤不匹配率上降低了約44%

追蹤人臉的年齡變化

DreamBooth

文中提出的方法基于潛擴(kuò)散模型DreamBooth，其可以通過(guò)對(duì)文生圖擴(kuò)散模型微調(diào)的方式將單個(gè)主體放置在其他上下文（re-contextualization）中。

Dreambooth的輸入要求為目標(biāo)主體多張圖像，以及包含主體的唯一標(biāo)識(shí)符和類標(biāo)簽（class label）的文本提示，其中類標(biāo)簽是多個(gè)實(shí)例的集合表示，主體對(duì)應(yīng)于屬于該類的特定示例。

Dreambooth的目標(biāo)是將唯一標(biāo)識(shí)符與每個(gè)主體（類的特定實(shí)例）相關(guān)聯(lián)，然后在文本提示的指導(dǎo)下，在不同的上下文中重新創(chuàng)建同一主體的圖像。

類標(biāo)簽需要利用指定類別預(yù)訓(xùn)練擴(kuò)散框架的先驗(yàn)知識(shí)，如果類別標(biāo)簽不正確或丟失可能會(huì)導(dǎo)致輸出質(zhì)量下降，唯一token充當(dāng)對(duì)特定主題的引用，并且需要足夠少見(jiàn)以避免與其他常用概念沖突。

原文作者使用了一組少于3個(gè)Unicode字符序列作為token，并用T5-XXL作為分詞器。

DreamBooth使用類別先驗(yàn)保存損失（class-specific prior preservation loss）來(lái)增加生成圖像的可變性，同時(shí)確保目標(biāo)對(duì)象和輸出圖像之間的偏差最小，原始訓(xùn)練損失如下：

DreamBooth在先驗(yàn)保存的幫助下可以有效地合成狗、貓、卡通等主體圖像，不過(guò)這篇論文中主要關(guān)注的是結(jié)構(gòu)更復(fù)雜、紋理也偏細(xì)節(jié)的人臉圖像。

雖然類標(biāo)簽「person」可以捕獲類似人類的特征，但這可能不足以捕獲因個(gè)體差異而形成的身份特征。

所以研究人員在損失函數(shù)中引入了一個(gè)身份保存（identity-preserving）項(xiàng)，可以最小化原始圖像和生成圖像生物特征之間的距離，并用新的損失函數(shù)微調(diào)VAE。

公式中的第三項(xiàng)代表被拍攝物體的真實(shí)圖像和生成圖像之間生物特征距離，其中B代表兩張圖像的L1距離，相同的圖像距離接近0，值越大代表兩個(gè)主體的差異越大，使用預(yù)訓(xùn)練VGGFace作為特征抽取器。

下一步是針對(duì)特定目標(biāo)進(jìn)行微調(diào)，使用凍結(jié)的VAE和文本編碼器，同時(shí)保持U-Net模型解凍。

UNet對(duì)VAE的編碼器產(chǎn)生的潛在表征進(jìn)行去噪，使用身份保持對(duì)比損失進(jìn)行訓(xùn)練。

研究人員采用SimCLR框架，使用正負(fù)樣本對(duì)之間的歸一化溫標(biāo)交叉熵?fù)p失（temperature-scaled cross-entropy loss）來(lái)增強(qiáng)潛在表征，即下式中的S函數(shù)。

在加權(quán)項(xiàng)λs=0.1且溫度值=0.5的情況下，計(jì)算無(wú)噪聲輸入（z0）和去噪聲輸出（zt）的潛在表征之間的對(duì)比損失。

U-Net架構(gòu)中潛在表征之間的對(duì)比損失使得模型能夠微調(diào)不同主體的擴(kuò)散模型。

除了定制損失外，研究人員還使用正則化集將面部年齡發(fā)展（progression）和回歸（regression）的概念賦給潛在擴(kuò)散模型，其中正則化集合包括一個(gè)類別中所有代表性的圖像，在本例中為person.

如果目標(biāo)是生成真實(shí)的人臉圖像，那從互聯(lián)網(wǎng)上選擇人臉圖像的正則化集就足夠了。

不過(guò)本文中的任務(wù)是讓模型學(xué)習(xí)衰老和返老還童的概念，并且還要應(yīng)用到不同的個(gè)體上，所以研究人員選擇使用不同年齡組的人臉圖像，然后將其與一個(gè)單詞描述（one-word caption）進(jìn)行配對(duì)。

圖像描述對(duì)應(yīng)于六個(gè)年齡組：兒童（child）、青少年（tennager）、年輕人（youngadults）、中年人（middleaged）、中老年人（elderly）、老年人（old ）。

相比數(shù)字提示（20歲、40歲），年齡描述的性能更好，并且可以在推理中用文本來(lái)提示擴(kuò)散模型（(photo of a ? token ? ? class label ? as ? age group ?）

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)設(shè)置

研究人員使用Stable Diffusion v1.4實(shí)現(xiàn)的DreamBooth進(jìn)行實(shí)驗(yàn),使用CLIP文本編碼器（在laion-aesthetics v2 5+上訓(xùn)練）和矢量量化VAE來(lái)完成年齡變化，在訓(xùn)練擴(kuò)散模型時(shí)，文本編碼器保持凍結(jié)狀態(tài)。

研究人員使用來(lái)自CelebA數(shù)據(jù)集100名受試者的2258張人臉圖像和來(lái)自AgeDB數(shù)據(jù)集100名受試者的659張圖像構(gòu)成訓(xùn)練集。

除了二元屬性「Young」之外，CelebA數(shù)據(jù)集沒(méi)有受試者的年齡信息；AgeDB數(shù)據(jù)集包含精確年齡值，研究人員選擇圖像數(shù)量最多的年齡組，并將其用作訓(xùn)練集，其余圖像則用于測(cè)試集（共2369幅圖像）。

研究人員使用（圖像，描述）數(shù)據(jù)對(duì)作為正則化集，其中每個(gè)人臉圖像與指示其相應(yīng)年齡標(biāo)簽的標(biāo)題相關(guān)聯(lián)，具體兒童<15歲、青少年15-30歲、年輕人30-40歲、中年人40-50歲、中老年人50-65歲、老年人>65歲，使用四個(gè)稀少token作為標(biāo)記：wzx, sks, ams, ukj

對(duì)比結(jié)果

研究人員使用IPCGAN、AttGAN和Talk-toEdit作為評(píng)估對(duì)比基線模型。

由于IPCGAN是在CACD數(shù)據(jù)集上訓(xùn)練的，所以研究人員對(duì)來(lái)自CACD數(shù)據(jù)集的62名受試者進(jìn)行了微調(diào)，可以觀察到FNMR=2%，而文中提出的方法FNMR（ False NonMatch Rate）=11%

可以看到IPCGAN默認(rèn)情況無(wú)法執(zhí)行老化或變年輕的操作，導(dǎo)致FNMR值很低。

研究人員使用DeepFace年齡預(yù)測(cè)器進(jìn)行自動(dòng)年齡預(yù)測(cè)，可以觀察到，與原始圖像和IPCGAN生成的圖像相比，文中方法合成的圖像會(huì)讓年齡預(yù)測(cè)得更分散，表明年齡編輯操作已經(jīng)成功。

在CelebA數(shù)據(jù)集上應(yīng)用AttGAN和對(duì)話編輯時(shí)，在圖像對(duì)比和生物特征匹配性能上，可以觀察到，在FMR=0.01時(shí)，文中方法在「young」類別的圖像上優(yōu)于AttGAN 19%，在「old」類別圖像上優(yōu)于AttGAN 7%

用戶研究

研究人員收集了26份用戶反饋，rank-1生物特征識(shí)別準(zhǔn)確率（響應(yīng)總數(shù)的平均值）達(dá)到了78.8%，各年齡組的正確識(shí)別準(zhǔn)確率分別為：兒童=99.6%、青少年=72.7%、青少年=68.1%、中年=70.7%、老年人=93.8%

也就是說(shuō)，用戶能夠以相當(dāng)高的準(zhǔn)確度成功地區(qū)分來(lái)自不同年齡組的生成圖像。

責(zé)任編輯：張燕妮來(lái)源：新智元

模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="apkg5"></style><sub id="apkg5"></sub>