DeepFake從未如此真實!英偉達最新提出的「隱式扭曲」到底有多強?
近年來,計算機視覺領域的生成技術越來越強,相應「偽造」技術也越來越成熟,從DeepFake換臉到動作模擬,讓人難辨真假。
最近英偉達又整了個大的,在NeurIPS 2022會議上發(fā)表了一個新的隱式扭曲(Implicit Warping)框架,使用一組源圖像和驅動視頻的運動來制作目標動畫。
論文鏈接:https://arxiv.org/pdf/2210.01794.pdf
從效果上來看,就是生成的圖像更逼真了,人物在視頻里動,背景也不會發(fā)生變化。
輸入的多張源圖片通常都會提供不同的外觀信息,減少了生成器「幻想」的空間,比如下面這兩張作為模型輸入。
可以發(fā)現(xiàn),和其他模型相比,隱式扭曲不會產(chǎn)生類似美顏效果的「空間扭曲」之術。
因為人物遮擋的關系,多張源圖像還可以提供更完善的背景。
從下面的視頻中可以看到,如果只有左面的一張圖片,背景后面的是「BD」還是「ED」很難猜測出來,就會導致背景的失真,而兩張圖片就會生成更穩(wěn)定的圖像。
在對比其他模型時,只有一張源圖像的效果也要更好。
神奇的隱式扭曲
學術界對于視頻模仿最早可以追溯到2005年,很多項目面部再現(xiàn)的實時表情傳輸、Face2Face、合成奧巴馬、Recycle-GAN、ReenactGAN、動態(tài)神經(jīng)輻射場等等多樣化地利用當時有限的幾種技術,如生成對抗網(wǎng)絡(GAN) 、神經(jīng)輻射場(NeRF)和自編碼器。
并不是所有方法都在嘗試從單一幀圖像中生成視頻,也有一些研究對視頻中的每一幀進行復雜的計算,這實際上也正是Deepfake所走的模仿路線。
但由于DeepFake模型獲取的信息較少,這種方法需要對每個視頻片段進行訓練,相比DeepFaceLab或FaceSwap的開源方法相比性能有所下降,這兩個模型能夠將一個身份強加到任意數(shù)量的視頻片段中。
2019年發(fā)布的FOMM模型讓人物隨著視頻動起來,給視頻模仿任務再次注入了一針強心劑。
隨后其他研究人員試圖從單一的面孔圖像或者全身表現(xiàn)中獲得多個姿勢和表情;但是這種方法通常只適用于那些相對沒有表情和不能動的主體,例如相對靜止的「說話的頭」,因為在面部表情或者姿勢中沒有網(wǎng)絡必須解釋的「行為突然變化」。
雖然其中一些技術和方法在深度偽造技術和潛在的擴散圖像合成方法大火之前獲得了公眾的關注,但適用范圍有限,多功能性受到質疑。
而英偉達此次著重處理的隱式扭曲,則是在多幀之間甚至只有兩幀之間獲取信息,而非從一幀中獲得所有必要的姿勢信息,這種設置在其他的競爭模型中都不存在,或者處理得非常糟糕。
比如迪士尼的工作流程就是由高級動畫師繪制主框架和關鍵幀,其他初級動畫師負責繪制中間幀。
通過對以前版本的測試,英偉達的研究人員發(fā)現(xiàn),以前方法的結果質量會隨著額外的「關鍵幀」而惡化,而新方法與動畫制作的邏輯一致,隨著關鍵幀數(shù)量的增加,性能也會以線性的方式提高。
如果clip的中間發(fā)生了一些突然的轉變,比如一個事件或者表情在起始幀或者結束幀中都沒有表現(xiàn)出來,隱式扭曲可以在這中間點添加一幀,額外的信息會反饋到整個clip的注意機制中。
模型結構
先前的方法,如 FOMM,Monkey-Net 和face-vid2vid等使用顯式扭曲繪制一個時間序列,從源人臉和控制運動中提取的信息必須適應且符合這個時間序列。
在這種模型設計下,關鍵點的最終映射是相當嚴格的。
相比之下,隱式扭曲使用一個跨模態(tài)注意層,其工作流中包含更少的預定義bootstrapping,可以適應來自多個框架的輸入。
工作流也不需要在每個關鍵點的基礎上進行扭曲,系統(tǒng)可以從一系列圖像中選擇最合適的特性。
隱式扭曲也復用了一些FOMM框架中的關鍵點預測組件,最終用一個簡單的U-net對派生的空間驅動關鍵點表示進行編碼。另外一個單獨的U-net則用來與衍生的空間表示一起對源圖像進行編碼,兩個網(wǎng)絡都可以在64px (256px 平方輸出)到384x384px 的分辨率范圍內(nèi)運行。
因為這種機制不能自動解釋任何給定視頻中姿勢和運動的所有可能變化,所以額外的關鍵幀是很必要的,可以臨時添加。如果沒有這種干預能力,與目標運動點相似度不足的key將自動uprate,從而導致輸出質量的下降。
研究人員對此的解釋是,雖然它是一組給定的關鍵幀中與query最相似的key,但可能不足以產(chǎn)生一個好的輸出。
例如,假設源圖像有一張嘴唇閉合的臉,而驅動圖像有一張嘴唇張開、牙齒暴露的臉。在這種情況下,源圖像中沒有適合驅動圖像嘴部區(qū)域的key(和value)。
該方法通過學習額外的與圖像無關的key-value pairs來克服這個問題,可以應對源圖像中缺少信息的情況。
盡管目前的實現(xiàn)速度相當快,在512x512px 的圖像上大約10 FPS,研究人員認為,在未來的版本中,pipeline可以通過一個因子化的 I-D 注意力層或空間降低注意力(SRA)層(即金字塔視覺Transformer)來優(yōu)化。
由于隱式扭曲使用的是全局注意力而不是局部注意力,因此它可以預測之前模型無法預測的因素。
實驗結果
研究人員在 VoxCeleb2數(shù)據(jù)集,更具挑戰(zhàn)性的 TED Talk 數(shù)據(jù)集和 TalkingHead-1KH 數(shù)據(jù)集上測試了該系統(tǒng),比較了256x256px 和完整的512x512px 分辨率之間的基線,使用的指標包括FID、基于 AlexNet的LPIPS和峰值信噪比(pSNR)。
用于測試的對比框架包括FOMM和face-vid2vid,以及AA-PCA,由于以前的方法很少或根本沒有能力使用多個關鍵幀,這也是隱式扭曲的主要創(chuàng)新,研究人員還設計了相似測試方法。
隱式扭曲在大多數(shù)指標上表現(xiàn)優(yōu)于大多數(shù)對比方法。
在多關鍵幀重建測試中,研究人員使用最多180幀序列,并選擇間隙幀,隱式扭曲這次獲得了全面勝利。
隨著源圖像數(shù)量的增加,該方法可以獲得更好的重建結果,所有指標的得分都有所提高。
而隨著源圖像數(shù)量的增加,先前工作的重建效果變差,與預期相反。
通過AMT的工作人員進行定性研究后,也認為隱式變形的生成結果強于其他方法。
如果能夠使用這種框架,用戶將能夠制作出更連貫、更長的視頻模擬和全身深度假視頻,所有這些都能夠展現(xiàn)出比該系統(tǒng)已經(jīng)試驗過的任何框架都要大得多的運動范圍。
不過更逼真的圖像合成研究也帶來了擔憂,因為這些技術可以輕易地用于偽造,論文中也有標準的免責聲明。
如果我們的方法被用來制造DeepFake產(chǎn)品,就有可能產(chǎn)生負面影響。惡意語音合成透過跨身份轉移及傳送虛假資料,制作人物的虛假影像,導致身份被盜用或傳播虛假新聞。但在受控設置中,同樣的技術也可以用于娛樂目的。
論文還指出了該系統(tǒng)在神經(jīng)視頻重建方面的潛力,比如谷歌的Project Starline,在這個框架中,重建工作主要集中在客戶端,利用來自另一端的人的稀疏運動信息。
這個方案越來越引起研究界的興趣,并且也有公司打算通過發(fā)送純運動數(shù)據(jù)或者稀疏間隔的關鍵幀來實現(xiàn)低帶寬的電話會議,這些關鍵幀將在到達目標客戶端時被解釋和插入到完整的高清視頻中。