自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟「詐騙屆」王牌框架,真到可怕!一張照片+音頻即可生成數(shù)字人 精華

發(fā)布于 2024-4-23 13:48
瀏覽
0收藏

在人物說話的過程中,每一個細(xì)微的動作和表情都可以表達(dá)情感,都能向觀眾傳達(dá)出無聲的信息,也是影響生成結(jié)果真實(shí)性的關(guān)鍵因素。


如果能夠根據(jù)特定面容來自動生成一段生動逼真的形象,將徹底改變?nèi)祟惻c人工智能系統(tǒng)的交互形式,例如改善有障礙患者的交流方式、增強(qiáng)人工智能輔導(dǎo)教育的趣味性、醫(yī)療保健場景下的治療支持和社會互動等。


最近,微軟亞洲研究院的研究人員拋出了一個重磅炸彈VASA-1框架,利用視覺情感技巧(VAS,visual affective skills),只需要輸入一張肖像照片+一段語音音頻,即可生成具有精確唇音同步、逼真面部行為和自然頭部運(yùn)動的超逼真說話面部視頻。

微軟「詐騙屆」王牌框架,真到可怕!一張照片+音頻即可生成數(shù)字人-AI.x社區(qū)

論文鏈接:????https://arxiv.org/pdf/2404.10667.pdf?????項(xiàng)目主頁:????https://www.microsoft.com/en-us/research/project/vasa-1/????

57

看完演示后,網(wǎng)友表示「每個人和家人朋友約定一個密碼詞」防止詐騙了,因?yàn)锳I可以一直監(jiān)聽手機(jī)的麥克風(fēng)來學(xué)習(xí)。

微軟「詐騙屆」王牌框架,真到可怕!一張照片+音頻即可生成數(shù)字人-AI.x社區(qū)


從法律角度來看,「視頻證據(jù)在未來的價值將大大降低」。

微軟「詐騙屆」王牌框架,真到可怕!一張照片+音頻即可生成數(shù)字人-AI.x社區(qū)


但也有網(wǎng)友指出,細(xì)看的話,視頻也存在瑕疵,例如牙齒的大小一直在變化;但如果不知道這個視頻是AI生成的話,不知道還能否分辨出來?


在VASA框架下,首款模型VASA-1不僅能夠產(chǎn)生與音頻完美同步的嘴唇動作,還能夠捕捉大量面部細(xì)微差別和自然的頭部動作,有助于感知真實(shí)性和生動性。


框架的核心創(chuàng)新點(diǎn)為基于擴(kuò)散的整體面部動力學(xué)和頭部運(yùn)動生成模型,以及使用視頻來開發(fā)出這種富有表現(xiàn)力和解耦的面部潛空間(disentangled face latent space)。


研究人員還使用了一組全新的指標(biāo)對模型能力進(jìn)行評估,結(jié)果表明該方法在各個維度上都顯著優(yōu)于之前的方法,可以提供具有逼真面部和頭部動態(tài)的高質(zhì)量視頻,還支持以高達(dá)40 FPS的幀速率實(shí)時生成512×512視頻,啟動延遲可忽略不計(jì)。


可以說,VASA框架為模擬人類對話行為中,使用逼真化身進(jìn)行實(shí)時互動鋪平了道路。

VASA框架

一個好的生成視頻應(yīng)該具備幾個關(guān)鍵點(diǎn):高保真度、圖像幀的清晰度和真實(shí)性、音頻和嘴唇動作之間的精確同步、表情和情感的面部動態(tài),以及自然的頭部姿勢。

微軟「詐騙屆」王牌框架,真到可怕!一張照片+音頻即可生成數(shù)字人-AI.x社區(qū)


模型在生成過程可以接受一組可選的控制信號來指導(dǎo)生成,包括主眼凝視方向、頭部到相機(jī)的距離和情緒偏移等。


整體框架

VASA模型并不是直接生成視頻幀,而是在音頻和其他信號的條件下,在潛空間中生成整體的面部動態(tài)和頭部運(yùn)動。


給定運(yùn)動潛碼后,VASA使用面部編碼器從輸入圖像中提取的外觀和身份特征作為輸入,然后生成視頻幀。


研究人員首先構(gòu)建了一個人臉潛空間,并使用現(xiàn)實(shí)生活中的人臉視頻對人臉編碼器和解碼器進(jìn)行訓(xùn)練;然后再訓(xùn)練一個簡單的擴(kuò)散Transformer對運(yùn)動分布進(jìn)行建模,針對測試期間的音頻和其他條件下,生成運(yùn)動潛碼。


1.表情和解耦面部潛空間構(gòu)建(Expressive and Disentangled Face Latent Space Construction)


給定一組未標(biāo)注的說話人臉視頻,研究人員的目標(biāo)是建立一個具有高度解耦和表現(xiàn)力的人臉潛空間。


在主體身份改變的情況下,解耦可以對視頻中的人臉和整體面部行為進(jìn)行高效的生成建模,還可以實(shí)現(xiàn)對輸出的解耦因子控制,相比之下,現(xiàn)有方法要么缺乏表現(xiàn)力,要么缺乏解耦。


另一方面,面部外觀和動態(tài)運(yùn)動的表情可以確保解碼器能夠輸出具有豐富面部細(xì)節(jié)的高質(zhì)量視頻,潛生成器能夠捕捉細(xì)微的面部動態(tài)。


為了實(shí)現(xiàn)這一點(diǎn),VASA模型建立在3D輔助人臉再現(xiàn)(3D-aid face reenactment)框架的基礎(chǔ)上,與2D特征圖相比,3D外觀特征體積可以更好地表征3D中的外觀細(xì)節(jié),其在建模3D頭部和面部運(yùn)動方面也很強(qiáng)大。


具體來說,研究人員將面部圖像分解為規(guī)范的3D外觀體積、身份編碼、3D頭部姿勢和面部動態(tài)編碼,每個特征都由獨(dú)立的編碼器從人臉圖像中進(jìn)行提取,其中外觀體積需要先通過提取姿勢三維體積,再將剛性和非剛性三維扭曲到規(guī)范體積來構(gòu)建得到。


解碼器將上述潛變量作為輸入,并重建面部圖像。


學(xué)習(xí)解耦潛空間的核心思想是,通過在視頻中不同圖像之間交換潛變量來構(gòu)建圖像重建損失,但原版模型中的損失函數(shù)無法很好地區(qū)分「面部動態(tài)」和「頭部姿勢」,也無法識別「身體」和「運(yùn)動」之間的關(guān)聯(lián)性。


研究人員額外添加了成對的頭部姿勢和面部動態(tài)來傳遞損失,以改善解耦效果。為了提升身份和運(yùn)動之間的糾纏,損失函數(shù)中引入了面部身份相似性損失。


2. 基于擴(kuò)散Transformer的整體人臉動態(tài)生成(Holistic Facial Dynamics Generation with Diffusion Transformer)


給定構(gòu)建的人臉潛空間和訓(xùn)練的編碼器,就可以從現(xiàn)實(shí)生活中的人臉視頻中提取人臉動態(tài)和頭部運(yùn)動,并訓(xùn)練生成模型。


最關(guān)鍵的是,研究人員考慮了身份不可知的整體面部動態(tài)生成(HFDG),學(xué)習(xí)到的潛編碼代表所有面部運(yùn)動,如嘴唇運(yùn)動、(非嘴唇)表情、眼睛凝視和眨眼,與現(xiàn)有方法中「使用交錯回歸和生成公式對不同因素應(yīng)用單獨(dú)的模型」形成了鮮明的對比。

微軟「詐騙屆」王牌框架,真到可怕!一張照片+音頻即可生成數(shù)字人-AI.x社區(qū)


此外,之前的方法通?;谟邢薜纳矸葸M(jìn)行訓(xùn)練,不能對不同人類的廣泛運(yùn)動模式進(jìn)行建模,特別是在具有表現(xiàn)力的運(yùn)動潛空間的情況下。


在這項(xiàng)工作中,研究人員利用音頻條件下的HFDG的擴(kuò)散模型,在來自大量身份的大量談話人臉視頻上進(jìn)行訓(xùn)練,并將Transformer架構(gòu)應(yīng)用于序列生成任務(wù)。


3.Talking Face視頻生成


在推斷時,給定任意的人臉圖像和音頻片段,首先使用訓(xùn)練的人臉編碼器提取3D外觀體積和身份編碼;然后提取音頻特征,將其分割成相同長度的片段,并使用訓(xùn)練的擴(kuò)散Transformer以滑動窗口的方式逐個生成頭部和面部運(yùn)動序列;最后使用訓(xùn)練后的解碼器生成最終視頻。

實(shí)驗(yàn)結(jié)果

研究人員使用公開的VoxCeleb2數(shù)據(jù)集,包含大約6000名受試者的談話面部視頻,并重新處理數(shù)據(jù)集并丟棄「包含多個人物的片段」和低質(zhì)量的片段。

對于motion latent生成任務(wù),使用embedding尺寸為512、頭編號為8的8層Transformer編碼器作為擴(kuò)散網(wǎng)絡(luò)。

模型在VoxCeleb2和收集的另一個高分辨率談話視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練,該數(shù)據(jù)集包含約3500個受試者。

定性評估

可視化結(jié)果

通過視覺檢查,我們的方法可以生成具有生動面部情緒的高質(zhì)量視頻幀。此外,它可以產(chǎn)生類似人類的對話行為,包括在演講和沉思過程中眼睛凝視的偶爾變化,以及眨眼的自然和可變節(jié)奏,以及其他細(xì)微差別。我們強(qiáng)烈建議讀者在線查看我們的視頻結(jié)果,以充分了解我們方法的功能和輸出質(zhì)量。


生成可控性

在不同控制信號下生成的結(jié)果,包括主眼凝視、頭部距離和情緒偏移,生成模型可以很好地解釋這些信號,并產(chǎn)生與這些特定參數(shù)密切相關(guān)的人臉結(jié)果。

微軟「詐騙屆」王牌框架,真到可怕!一張照片+音頻即可生成數(shù)字人-AI.x社區(qū)

解耦face latents

當(dāng)將相同的運(yùn)動潛在序列應(yīng)用于不同的受試者時,方法有效地保持了不同的面部運(yùn)動和獨(dú)特的面部特征,表明了該方法在解耦身份和運(yùn)動方面的有效性。

微軟「詐騙屆」王牌框架,真到可怕!一張照片+音頻即可生成數(shù)字人-AI.x社區(qū)


下圖進(jìn)一步說明了頭部姿勢和面部動態(tài)之間的有效解耦,通過保持一個方面不變并改變另一個方面,得到的圖像忠實(shí)地反映了預(yù)期的頭部和面部運(yùn)動,而不會受到干擾,展示了處理訓(xùn)練分布之外的照片和音頻輸入的能力。

微軟「詐騙屆」王牌框架,真到可怕!一張照片+音頻即可生成數(shù)字人-AI.x社區(qū)


模型還可以處理藝術(shù)照片、歌唱音頻片段(前兩行)和非英語演講(最后一行),并且這些數(shù)據(jù)變體不存在于訓(xùn)練數(shù)據(jù)集中。

微軟「詐騙屆」王牌框架,真到可怕!一張照片+音頻即可生成數(shù)字人-AI.x社區(qū)


定量評估

下表給出了VoxCeleb2和OneMin-32基準(zhǔn)測試的結(jié)果。

微軟「詐騙屆」王牌框架,真到可怕!一張照片+音頻即可生成數(shù)字人-AI.x社區(qū)


在這兩個基準(zhǔn)測試中,該方法在所有評估指標(biāo)上都取得了所有方法中最好的結(jié)果。


在音頻嘴唇同步分?jǐn)?shù)(SC和SD)方面,該方法遠(yuǎn)遠(yuǎn)優(yōu)于其他方法,比真實(shí)視頻產(chǎn)生更好的分?jǐn)?shù),是由于音頻CFG的影響。


從CAPP分?jǐn)?shù)上反映的結(jié)果來看,模型生成的姿勢與音頻的匹配效果更一致,尤其是在OneMin-32基準(zhǔn)上。


根據(jù)?P,頭部運(yùn)動也表現(xiàn)出最高的強(qiáng)度,但仍然與真實(shí)視頻的強(qiáng)度仍有差距;并且FVD得分明顯低于其他模型,表明該結(jié)果具有更高的視頻質(zhì)量和真實(shí)性。


本文轉(zhuǎn)自 新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/firVJHJ4td_5mbCPytD8Cg??


標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦