自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

單張人像生成視頻!中國團(tuán)隊(duì)提出3D人臉視頻生成模型,實(shí)現(xiàn)SOTA

新聞 人工智能
稀疏人臉特征點(diǎn)生成的人臉圖像視頻通常會(huì)遇到圖像質(zhì)量損失、圖像失真、身份改變,以及表情不匹配等問題。為此作者使用重建出的三維人臉動(dòng)態(tài)信息來指導(dǎo)人臉視頻的生成。結(jié)果顯示,F(xiàn)aceAnime從單張靜止人臉圖像生成的視頻比其它方法效果更好。

[[417461]]

 如何用一張人臉可以生成一段有趣的視頻?

[[417462]]

當(dāng)然不是指這種直接貼個(gè)人頭就算了的粗糙gif

人臉視頻的生成通常會(huì)利用人臉圖像的稀疏特征點(diǎn)(landmarks)結(jié)合生成對抗網(wǎng)絡(luò)(GAN)。

不過,這種由稀疏人臉特征點(diǎn)生成的人臉圖像視頻通常會(huì)遇到很多問題。

比如圖像質(zhì)量損失、圖像失真、身份改變,以及表情不匹配等問題。

因此,為了解決這些問題,本文作者使用重建出的三維人臉動(dòng)態(tài)信息來指導(dǎo)人臉視頻的生成。

單張人像生成視頻!中國團(tuán)隊(duì)提出3D人臉視頻生成模型,實(shí)現(xiàn)SOTA

論文地址:https://ieeexplore.ieee.org/abstract/document/9439899

arXiv版本:https://arxiv.org/pdf/2105.14678.pdf

三維人臉動(dòng)態(tài)中,人的面部表情和動(dòng)作更加細(xì)膩,可以作為有力的先驗(yàn)知識指導(dǎo)生成高度逼真的人臉視頻。

文中,作者設(shè)計(jì)了一套三維動(dòng)態(tài)預(yù)測和人臉視頻生成模型(FaceAnime)來預(yù)測單張人臉圖像的3D動(dòng)態(tài)序列。

通過稀疏紋理映射算法進(jìn)一步渲染3D動(dòng)態(tài)序列的皮膚細(xì)節(jié),最后利用條件生成對抗網(wǎng)絡(luò)引導(dǎo)人臉視頻的生成。

實(shí)驗(yàn)結(jié)果顯示,F(xiàn)aceAnime能從單張靜止的人臉圖像生成高保真度、身份不變性的人臉視頻,比其它方法效果更好。

背景和貢獻(xiàn)

當(dāng)前的人臉視頻生成方法普遍采用人臉的稀疏特征點(diǎn)(landmarks)來引導(dǎo)圖片或視頻的生成。

然而作者認(rèn)為使用稀疏的二維特征點(diǎn)引導(dǎo)人臉圖像/視頻生成有明顯的不足:

  1. 稀疏人臉特征點(diǎn)不能很好地表示人臉圖像的幾何形狀,容易導(dǎo)致人臉整體形狀和面部結(jié)構(gòu)細(xì)節(jié)的缺失,進(jìn)而導(dǎo)致合成圖像的失真和質(zhì)量損失;
  2. 稀疏的二維特征點(diǎn)不攜帶源人臉圖像的任何內(nèi)容信息,這可能會(huì)導(dǎo)致生成的圖像過擬合于只包含訓(xùn)練集的人臉圖像中;
  3. 在視頻生成過程中應(yīng)保留人臉身份信息,但稀疏的2D特征點(diǎn)沒有身份信息,容易導(dǎo)致合成結(jié)果的身份變化。

因此,文章針對這些方面做出了以下貢獻(xiàn):

  • 不同于廣泛使用2D稀疏人臉landmarks進(jìn)行圖像/視頻的引導(dǎo)生成,文章主要探索包含人臉豐富信息的3D動(dòng)態(tài)信息的人臉視頻生成任務(wù);
  • 設(shè)計(jì)了一個(gè)三維動(dòng)態(tài)預(yù)測網(wǎng)絡(luò)(3D Dynamic Prediction,3DDP)來預(yù)測時(shí)空連續(xù)的3D動(dòng)態(tài)序列;
  • 提出了一個(gè)稀疏紋理映射算法來渲染預(yù)測的3D動(dòng)態(tài)序列,并將其作為先驗(yàn)信息引導(dǎo)人臉圖像/視頻的生成;
  • 文章使用隨機(jī)和可控的兩種方式進(jìn)行視頻的生成任務(wù),驗(yàn)證提出方法的有效性。

方法描述

本文提出的FaceAnime包含一個(gè)3D動(dòng)態(tài)預(yù)測網(wǎng)絡(luò)(3D Dynamic Prediction, 3DDP)和一個(gè)先驗(yàn)引導(dǎo)的人臉生成網(wǎng)絡(luò)(Prior-Guided Face Generation, PGFG)。

首先,方法基于三維形變模型(3D Morphable Models, 3DMM)對單張人臉圖像進(jìn)行三維重建,3DDP網(wǎng)絡(luò)隨后預(yù)測該圖像未來的3D動(dòng)態(tài)序列,之后將動(dòng)態(tài)序列進(jìn)行稀疏紋理映射渲染,最后使用PGFG網(wǎng)絡(luò)完成相應(yīng)的人臉生成。

單張人像生成視頻!中國團(tuán)隊(duì)提出3D人臉視頻生成模型,實(shí)現(xiàn)SOTA

FaceAnime的整體框架圖,3DDP網(wǎng)絡(luò)部分

單張人像生成視頻!中國團(tuán)隊(duì)提出3D人臉視頻生成模型,實(shí)現(xiàn)SOTA

FaceAnime的整體框架圖,PGFG網(wǎng)絡(luò)部分

3D人臉重建和稀疏紋理映射

3D形變模型(3D Morphable Model, 3DMM)用來從2D人臉圖像中預(yù)測相應(yīng)的3D人臉。

其中,描述3D人臉的頂點(diǎn)(vertex)可由一系列2D人臉中的正交基線性加權(quán)得出:

單張人像生成視頻!中國團(tuán)隊(duì)提出3D人臉視頻生成模型,實(shí)現(xiàn)SOTA

其中,S bar是平均臉, As是形狀主成分基, as是相應(yīng)的形狀系數(shù),Aexp是表情主成分基,aexp是對應(yīng)的表情系數(shù)。

反過來,3D人臉頂點(diǎn)也可以通過變換映射到一個(gè)2維圖像平面上,對應(yīng)的公式可以表達(dá)為:

單張人像生成視頻!中國團(tuán)隊(duì)提出3D人臉視頻生成模型,實(shí)現(xiàn)SOTA

其中,V表示3D頂點(diǎn)在2維平面上的映射坐標(biāo),∏是固定的正交映射矩陣,Pr是對應(yīng)的旋轉(zhuǎn)矩陣,而t為偏移向量。

通過最小化映射landmarks和檢測的landmarks之間的l2距離,最終可以求得3DMM中的系數(shù)。

給定一張?jiān)慈四槇D像(Source Face),其3D形狀可以通過改變重建的3DMM系數(shù)來進(jìn)行任意的修改, 則目標(biāo)人臉的稀疏紋理可以由修改后的3DMM系數(shù)獲得。

在人臉重定向任務(wù)中,修改的3DMM系數(shù)可由參考人臉視頻幀得到,而在人臉預(yù)測任務(wù)中,則由LSTM模塊預(yù)測得到。

為了防止在紋理映射中,密集的紋理先驗(yàn)信息太強(qiáng)而導(dǎo)致目標(biāo)動(dòng)作中出現(xiàn)不符合期望的結(jié)果,因此在紋理映射過程中本文采用間隔采樣即稀疏紋理映射,以適應(yīng)不同的人臉運(yùn)動(dòng)變化。

單張人像生成視頻!中國團(tuán)隊(duì)提出3D人臉視頻生成模型,實(shí)現(xiàn)SOTA

給定不同的3DMM系數(shù)所得到的不同三維人臉重建和稀疏映射的結(jié)果

不同于以往只針對某一種任務(wù)的視頻生成,在本文中作者提出了三個(gè)不同的生成任務(wù),即人臉視頻重定向(Face video retargeting),視頻預(yù)測(Video prediction)以及目標(biāo)驅(qū)動(dòng)的視頻預(yù)測(Target-driven video prediction)。

對于retargeting任務(wù),作者使用參考視頻來提供序列的變化信息,而不使用3DDP來預(yù)測。

視頻預(yù)測:

給定一個(gè)觀測到的動(dòng)態(tài)序列(3DMM coefficients),LSTM對其進(jìn)行編碼:

單張人像生成視頻!中國團(tuán)隊(duì)提出3D人臉視頻生成模型,實(shí)現(xiàn)SOTA

為了預(yù)測出一個(gè)合理的動(dòng)作,LSTM不得不首先學(xué)習(xí)大量的動(dòng)作輸入以識別在姿態(tài)序列中運(yùn)動(dòng)的種類以及隨時(shí)間的變化。

在訓(xùn)練過程中,未來動(dòng)態(tài)序列可以由下式生成:

單張人像生成視頻!中國團(tuán)隊(duì)提出3D人臉視頻生成模型,實(shí)現(xiàn)SOTA

其中dt hat表示預(yù)測得到的3DMM系數(shù),其表示在時(shí)刻t的3D dynamic。

基于以上公式,模型可以從一個(gè)初始的dynamic d0學(xué)到一個(gè)合理的未來序列。

目標(biāo)驅(qū)動(dòng)的視頻預(yù)測:

對于LSTM來講,要實(shí)現(xiàn)目標(biāo)引導(dǎo)的運(yùn)動(dòng)生成,模型需要兩個(gè)輸入,即source dynamic和target dynamic。

不同于視頻預(yù)測,作者使用了一個(gè)計(jì)時(shí)器來對target dynamic進(jìn)行重新賦權(quán)。

整體的LSTM預(yù)測可以用公式表示為:

單張人像生成視頻!中國團(tuán)隊(duì)提出3D人臉視頻生成模型,實(shí)現(xiàn)SOTA

這里dT表示target dynamic,T為預(yù)測長度,即t=0表示序列開始時(shí)間,t=T為序列結(jié)束。

損失函數(shù):

給一個(gè)source人臉圖像,作者使用2DAL模型回歸出相應(yīng)的3DMM系數(shù),用來表示初始的3D dynamic d0。之后模型通過觀測d0來生成一個(gè)系數(shù)序列d1:T hat。

在訓(xùn)練過程中,作者使用3DMM coefficient loss和3D vertex loss兩個(gè)損失函數(shù)進(jìn)行監(jiān)督學(xué)習(xí)。

3DMM coefficient loss定義為預(yù)測3DMM 系數(shù)和ground truth 3DMM系數(shù)之間的歐式距離:

單張人像生成視頻!中國團(tuán)隊(duì)提出3D人臉視頻生成模型,實(shí)現(xiàn)SOTA

而3D vertex loss定義為:

單張人像生成視頻!中國團(tuán)隊(duì)提出3D人臉視頻生成模型,實(shí)現(xiàn)SOTA

其中v1+t hat和v1+t分別為預(yù)測得到的系數(shù)和標(biāo)準(zhǔn)系數(shù)對應(yīng)的人臉三維頂點(diǎn)信息。則整體的損失函數(shù)可以表述為:

單張人像生成視頻!中國團(tuán)隊(duì)提出3D人臉視頻生成模型,實(shí)現(xiàn)SOTA

先驗(yàn)引導(dǎo)的人臉生成:基于提出的稀疏紋理映射,source人臉圖像被用于渲染預(yù)測的3D dynamics。在這里,稀疏紋理作為引導(dǎo)人臉生成的先驗(yàn)信息。

文中提到的網(wǎng)絡(luò)PGFG(Prior-Guided Face Generation Network)主要由條件GANp網(wǎng)絡(luò)來組成。

PGFG網(wǎng)絡(luò)的結(jié)構(gòu):

PGFG生成器G有三個(gè)輸入,分別是source人臉I(yè)s,Is對應(yīng)的紋理先驗(yàn)ps和pt目標(biāo)的紋理先驗(yàn)。

在這里,作者并沒有直接使用目標(biāo)的紋理先驗(yàn)pt作為先驗(yàn)引導(dǎo),而是使用了先驗(yàn)殘差來引導(dǎo)人臉生成,在特征空間可以獲得運(yùn)動(dòng)殘差:E(pt)-E(ps)。由此可得最終人臉為:

單張人像生成視頻!中國團(tuán)隊(duì)提出3D人臉視頻生成模型,實(shí)現(xiàn)SOTA

為了進(jìn)一步利用不同空間位置的特征信息,編碼器和解碼器均由Dense blocks組成。

判別器有兩個(gè)輸入,即目標(biāo)人臉圖像的紋理先驗(yàn)分別和生成人臉、目標(biāo)人臉結(jié)合的輸入[pt, It hat],[pt, It]。

損失函數(shù):

網(wǎng)絡(luò)PGFG由三個(gè)損失函數(shù)進(jìn)行監(jiān)督,分別為圖像像素間的損失Limg,對抗損失Ladv和身份信息損失Lid。

單張人像生成視頻!中國團(tuán)隊(duì)提出3D人臉視頻生成模型,實(shí)現(xiàn)SOTA

需要注意的是,在身份信息損失中,R為預(yù)訓(xùn)練的人臉識別模型。網(wǎng)絡(luò)整體的損失函數(shù)為:

單張人像生成視頻!中國團(tuán)隊(duì)提出3D人臉視頻生成模型,實(shí)現(xiàn)SOTA

結(jié)果和分析

作者分別對人臉視頻重定向、視頻預(yù)測以及目標(biāo)驅(qū)動(dòng)的視頻預(yù)測三個(gè)任務(wù)做了相應(yīng)的大量實(shí)驗(yàn)。

人臉視頻重定向:

在這個(gè)任務(wù)中,作者分別對人臉表情的重定向以及頭部講話重定向兩個(gè)子任務(wù)進(jìn)行了實(shí)驗(yàn)。

實(shí)驗(yàn)表明,所提出的FaceAnime模型可以很好的將source人臉圖像中的表情和動(dòng)作重定向到目標(biāo)圖像上,生成相對應(yīng)的姿態(tài)和講話表情。

單張人像生成視頻!中國團(tuán)隊(duì)提出3D人臉視頻生成模型,實(shí)現(xiàn)SOTA

FaceAnime的人臉表情重定向(a)和頭部講話重定向(b)實(shí)驗(yàn)結(jié)果

人臉視頻預(yù)測:

這個(gè)任務(wù)中包含視頻預(yù)測以及目標(biāo)驅(qū)動(dòng)的視頻預(yù)測兩個(gè)子任務(wù)。

對每一個(gè)預(yù)測任務(wù),實(shí)驗(yàn)過程中作者隨機(jī)選取一張從人臉圖像測試集IJB-C中抽取的單張人臉圖像。

對于視頻測試,作者首先使用3DDP網(wǎng)絡(luò)從source人臉中預(yù)測一個(gè)運(yùn)動(dòng)序列,然后用該序列引導(dǎo)人臉視頻的生成。

而對于目標(biāo)引導(dǎo)的人臉預(yù)測任務(wù),則需要兩個(gè)輸入圖像。一個(gè)是source人臉,另一個(gè)為target人臉。

3DDP網(wǎng)絡(luò)用于預(yù)測從source人臉到target人臉之間平滑的運(yùn)動(dòng)變化,從而引導(dǎo)人臉視頻的生成。

單張人像生成視頻!中國團(tuán)隊(duì)提出3D人臉視頻生成模型,實(shí)現(xiàn)SOTA

FaceAnime的視頻生成結(jié)果

單張人像生成視頻!中國團(tuán)隊(duì)提出3D人臉視頻生成模型,實(shí)現(xiàn)SOTA

FaceAnime的目標(biāo)驅(qū)動(dòng)視頻生成的結(jié)果

為了展示所提出方法的先進(jìn)性,作者還同其他類似任務(wù)的算法進(jìn)行了效果對比。

單張人像生成視頻!中國團(tuán)隊(duì)提出3D人臉視頻生成模型,實(shí)現(xiàn)SOTA

FaceAnime和其它方法的對比結(jié)果

通過比較,F(xiàn)aceAnime不僅可以生成高質(zhì)量且真實(shí)的人臉視頻序列,同時(shí)生成的視頻圖像可以精確的還原參考視頻中人臉表情和姿態(tài)變化,還能較好的保持人臉的身份信息。

大量實(shí)驗(yàn)表明,作者提出的方法可以將參考視頻的姿態(tài)和表情變化重定位到source人臉上,并且對于一個(gè)隨機(jī)的人臉圖像,其可以生成合理的未來視頻序列。

對比其他最先進(jìn)的人臉生成方法,所提出的方法在生成高質(zhì)量和身份信息保持的人臉方面具有更好的效果。

作者介紹

涂曉光,2020年在中國電子科技大學(xué)獲得博士學(xué)位。2018年至2020年在新加坡國立大學(xué)學(xué)習(xí)與視覺實(shí)驗(yàn)室做訪問學(xué)者,師從馮佳時(shí)博士。研究興趣包括凸優(yōu)化,計(jì)算機(jī)視覺和深度學(xué)習(xí)。

鄒應(yīng)天,新加坡國立大學(xué)計(jì)算機(jī)學(xué)院在讀博士。2018年,他在中國武漢的華中科技大學(xué)獲得計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。他的研究興趣是計(jì)算機(jī)視覺、實(shí)用機(jī)器學(xué)習(xí)算法及其理論。

趙健,2012年獲得北京航空航天大學(xué)學(xué)士學(xué)位,2014年獲得國防科技大學(xué)碩士學(xué)位,2019年獲得新加坡國立大學(xué)博士學(xué)位。他的主要研究興趣包括深度學(xué)習(xí)、模式識別、計(jì)算機(jī)視覺和多媒體分析。曾獲ACM MM 2018年最佳學(xué)生論文獎(jiǎng)。曾擔(dān)任NSFC、T-PAMI、IJCV、NeurIPS(2018年NeurIPS最高分前30%的審稿人之一)、CVPR等的邀請審稿人。

艾文杰,電子科技大學(xué)信息與通信工程學(xué)院在讀碩士。他感興趣的研究領(lǐng)域主要包括計(jì)算機(jī)視覺和深度學(xué)習(xí),特別是超級分辨率和去模糊。

董健,IEEE會(huì)員,在新加坡國立大學(xué)獲得博士學(xué)位。目前是Shopee公司的董事。曾任360的高級總監(jiān)和亞馬遜的研究科學(xué)家。他的研究興趣包括機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺,并在PASCAL VOC和ILSVRC比賽中獲得了優(yōu)勝獎(jiǎng)。

遙遠(yuǎn),Pensees新加坡研究院的人工智能科學(xué)家。2019年在新加坡國立大學(xué)獲得電子和計(jì)算機(jī)工程碩士學(xué)位。2019年在劍橋大學(xué)劍橋圖像分析組做訪問學(xué)者。他的研究興趣包括生成式對抗網(wǎng)絡(luò)、光流估計(jì)和人臉識別。

王智康,西安電子科技大學(xué)電子工程學(xué)院在讀碩士。2019年至2020年在新加坡國立大學(xué)學(xué)習(xí)與視覺實(shí)驗(yàn)室做訪問學(xué)者。他的研究興趣包括計(jì)算機(jī)視覺、深度學(xué)習(xí)和多媒體數(shù)據(jù)處理。

李志鋒,騰訊人工智能實(shí)驗(yàn)室的頂級首席研究員。2006年在香港中文大學(xué)獲得博士學(xué)位。之后在香港中文大學(xué)和密歇根州立大學(xué)做博士后研究。在加入騰訊人工智能實(shí)驗(yàn)室之前,他是中國科學(xué)院深圳先進(jìn)技術(shù)研究院的一名全職教授。他的研究興趣包括深度學(xué)習(xí)、計(jì)算機(jī)視覺和模式識別,以及人臉檢測和識別。目前在《神經(jīng)計(jì)算》和《IEEE視頻技術(shù)電路與系統(tǒng)》的編輯委員會(huì)任職,并且是英國計(jì)算機(jī)學(xué)會(huì)(FBCS)的研究員。

郭國棟,在美國威斯康星大學(xué)麥迪遜分校獲得計(jì)算機(jī)科學(xué)博士學(xué)位。目前是百度研究院深度學(xué)習(xí)研究所的副所長,同時(shí)也是美國西弗吉尼亞大學(xué)(WVU)計(jì)算機(jī)科學(xué)和電子工程系的副教授。他的研究興趣包括計(jì)算機(jī)視覺、生物統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和多媒體。他在2008年獲得北卡羅來納州優(yōu)秀創(chuàng)新獎(jiǎng),在西弗吉尼亞大學(xué)CEMR獲得杰出研究員(2017-2018),在西弗吉尼亞大學(xué)CEMR獲得年度最佳新研究員(2010-2011)。

劉威,騰訊人工智能實(shí)驗(yàn)室計(jì)算機(jī)視覺中心的主任。曾于2012年至2015年在美國紐約州約克敦高地的IBM T. J. Watson研究中心擔(dān)任研究人員。他致力于機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、模式識別、信息檢索、大數(shù)據(jù)等領(lǐng)域的研究和開發(fā)。目前在IEEE Transactions on Pattern Analysis and Machine Intelligence、IEEE Transactions on Neural Networks and Learning Systems、IEEE Transactions on Circuits and Systems for Video Technology、Pattern Recognition等刊物的編委會(huì)任職。他是國際模式識別協(xié)會(huì)(IAPR)的會(huì)員和國際統(tǒng)計(jì)學(xué)會(huì)(ISI)的當(dāng)選成員。

馮佳時(shí),2007年在中國科技大學(xué)獲得工學(xué)學(xué)士學(xué)位,2014年在新加坡國立大學(xué)獲得博士學(xué)位。2014年至2015年,他在美國加州大學(xué)擔(dān)任博士后研究員。目前是新加坡國立大學(xué)電子和計(jì)算機(jī)工程系的助理教授。研究興趣集中在大規(guī)模數(shù)據(jù)分析的機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺技術(shù)。

 

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-02-20 09:58:35

模型3D

2023-12-22 09:29:07

模型3D

2025-04-09 13:11:27

2025-01-26 10:50:00

模型視頻生成

2025-04-10 09:10:00

模型AI評測

2023-07-14 09:41:01

3DAI

2024-05-06 12:24:00

模型訓(xùn)練

2023-04-03 10:04:44

開源模型

2025-01-27 09:32:23

2025-04-18 09:25:00

2024-03-05 11:31:00

AI數(shù)據(jù)

2023-08-15 08:36:20

ChatGPT模型

2024-03-20 15:51:00

AI數(shù)據(jù)

2024-03-20 12:27:48

模型訓(xùn)練

2025-01-07 13:19:48

模型AI訓(xùn)練

2024-10-28 07:30:00

2025-01-13 10:00:00

模型生成3D

2024-12-10 15:17:11

2025-04-16 09:20:00

虛擬模型數(shù)字

2025-01-14 09:24:46

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號