DeepFake換頭術(shù)升級(jí):浙大新模型,GAN出一頭秀發(fā)
雖然DeepFake能令人置信地?fù)Q臉,但沒(méi)法同樣換好頭發(fā)。現(xiàn)在浙大與瑞典研究者都擴(kuò)寬思路,用GAN或CNN來(lái)另外生成逼真的虛擬發(fā)絲。
DeepFake技術(shù)面世的2010年間末葉,正好趕上了川普時(shí)代。
無(wú)數(shù)搓手打算用DeepFake來(lái)好好惡搞大總統(tǒng)一下的玩梗人,在實(shí)操中遇到了一個(gè)不大不小的障礙:
各家DeepFake類軟件,可以給圖像換上金毛闖王的橙臉,但那頭不羈的金發(fā)實(shí)在讓AI都生成不出令人置信的替代品。
看,是不是那頭毛就讓DeepFake產(chǎn)品露餡了。
DeepFake搞得定換臉,也搞不定換頭發(fā)
其實(shí)這是老問(wèn)題遇到了新挑戰(zhàn)。如何栩栩如生地復(fù)現(xiàn)人像模特的頭發(fā),這是一個(gè)自希臘-羅馬時(shí)代的雕像師開(kāi)始就很覺(jué)棘手的難題。
人腦袋平均有大概100000根頭發(fā)絲,并且因?yàn)轭伾驼凵渎实牟煌?,在超過(guò)一定的長(zhǎng)度后,即使在計(jì)算機(jī)時(shí)代也只能用復(fù)雜物理模型進(jìn)行模擬,來(lái)進(jìn)行圖像移動(dòng)和重組。
目前,只有自20世紀(jì)末以來(lái)的傳統(tǒng)CGI技術(shù)可以做到這一點(diǎn)。
當(dāng)下的DeepFake技術(shù)還是不太能解決這個(gè)問(wèn)題。數(shù)年來(lái),DeepFaceLab也只發(fā)布一個(gè)僅僅能捕捉短發(fā)的「頭部全體毛發(fā)」模型,發(fā)部還是僵硬的。這還是一款在業(yè)內(nèi)領(lǐng)先的軟件包。
最近,DFL的合作伙伴FaceSwap做出了BiseNet語(yǔ)義分割模型,能使用戶在deepfake輸出圖像中包括到耳部和頭發(fā)的圖形細(xì)節(jié)呈現(xiàn)。
這兩套軟件包都來(lái)自2017年Deepfakes的源代碼,在當(dāng)時(shí)頗受爭(zhēng)議。
就算現(xiàn)在DeepFake模型要呈現(xiàn)的頭發(fā)圖像非常短,輸出結(jié)果的質(zhì)量往往也很差,頭像好像是疊加上去的一樣,不像是渾然一體的圖像一部分。
用GAN來(lái)生成毛發(fā)
目前,業(yè)界用來(lái)模擬人像使用最多的兩種辦法,一個(gè)是神經(jīng)輻射場(chǎng)技術(shù)(Neural Radiance Fields)。NeRF可以從多個(gè)視角捕捉畫面,之后可以將這些視角的3D成像封裝在可探索的神經(jīng)網(wǎng)絡(luò)AI里。
另一種辦法則是生成對(duì)抗網(wǎng)絡(luò)(GAN),GAN在人類圖像合成方面比NeRF更加先進(jìn),即使是NeRF在2020年才出現(xiàn)。
NeRF對(duì)3D幾何圖形的推測(cè)性理解,將使其能夠以較高的保真度和一致性,對(duì)圖案場(chǎng)景進(jìn)行復(fù)制。哪怕當(dāng)前沒(méi)有施加物理模型的空間、或者準(zhǔn)確來(lái)說(shuō)和攝像頭視角無(wú)關(guān)的變化,所收集的數(shù)據(jù)導(dǎo)致的變形都是一樣的。
不過(guò)就目前來(lái)看,NeRF模擬人類發(fā)絲運(yùn)動(dòng)模擬的能力并不出色。
與NeRF不同,GAN天然就有個(gè)幾乎致命的劣勢(shì)。GAN的潛在空間并不會(huì)自然包含對(duì)3D信息的理解。
因此,3D可感知的GAN所生成的人臉合成圖像,在近幾年成了圖像生成研究的熱點(diǎn)問(wèn)題。而2019年的InterFaceGAN是最主要的突破之一。
然而,即使是在InterFaceGAN展示上的精心挑選的圖像結(jié)果,也都表明:在時(shí)間的一致性的表現(xiàn)上,神經(jīng)網(wǎng)絡(luò)AI生成發(fā)絲圖像達(dá)到令人滿意的一致性依然是一項(xiàng)艱巨的挑戰(zhàn),應(yīng)用在VFX圖像工作流程中仍然性能不可靠。
越來(lái)越明顯的是,通過(guò)操控神經(jīng)網(wǎng)絡(luò)AI潛在空間進(jìn)行的連貫視圖生成,可能是一種類似煉金術(shù)的技術(shù)。
越來(lái)越多的論文中不得不另辟蹊徑,將基于CGI的3D信息作為穩(wěn)定的和規(guī)范化的約束,納入GAN的工作流程。
CGI元素可以由3D形式的中間圖形元表示,比方說(shuō)「蒙皮多人線性模型」(SMPL,Skinned Multi-Person Linear Model)。
又或是應(yīng)用和NeRF模式相近的3D推斷技術(shù)得出,在這種技術(shù)中,圖像的幾何元素是從源圖像和源視頻中評(píng)估出來(lái)的。
就在本周,悉尼科技大學(xué)的ReLER實(shí)驗(yàn)室、AAII研究所、阿里達(dá)摩院以及浙江大學(xué)的研究者合作發(fā)布了一項(xiàng)論文,描述了用于3D可感知圖像合成的「多視角連貫性生成性對(duì)抗網(wǎng)絡(luò)」(MVCGAN)。
MVCGAN生成的頭像
MVCGAN包含了一個(gè)「生成輻射場(chǎng)網(wǎng)絡(luò)」(GRAF)AI,它可以在GAN中提供幾何限制。理論上來(lái)講,這個(gè)組合可以說(shuō)實(shí)現(xiàn)了任何基于GAN的方法的最逼真虛擬頭發(fā)輸出結(jié)果。
MVCGAN生成的帶發(fā)絲頭像與其他模型生成頭像的對(duì)比
從上圖可以看出,在極端發(fā)絲參數(shù)下,除MVCGAN外,其他模型的圖像結(jié)果都產(chǎn)生不可置信的扭曲
不過(guò),在CGI工作流程中,以時(shí)間為基礎(chǔ)的虛擬發(fā)絲重建依然是一項(xiàng)挑戰(zhàn)。
因此業(yè)界尚無(wú)理由相信,傳統(tǒng)的、基于幾何圖形的辦法,能夠在可預(yù)見(jiàn)將來(lái)能把具有時(shí)間一致性的發(fā)絲圖形合成帶入AI的潛在空間中。
用CNN生成穩(wěn)定的虛擬頭發(fā)數(shù)據(jù)
不過(guò),瑞典查爾默斯理工學(xué)院三位研究人員即將發(fā)表的論文,或許還可以為「用神經(jīng)網(wǎng)絡(luò)生成人發(fā)圖像」的研究提供新進(jìn)展。
這篇題為《用卷積神經(jīng)網(wǎng)絡(luò)實(shí)時(shí)進(jìn)行毛發(fā)濾鏡》的論文即將在2022年5月份的重要學(xué)術(shù)會(huì)議「交互式3D圖形和游戲盛會(huì)」上發(fā)表。
該系統(tǒng)由一個(gè)基于自動(dòng)編碼器的神經(jīng)網(wǎng)絡(luò)AI作為基礎(chǔ),該神經(jīng)網(wǎng)絡(luò)AI能夠?qū)崟r(shí)評(píng)估生成的虛擬發(fā)絲圖案分辨率,包括發(fā)絲在虛擬空間中自動(dòng)產(chǎn)生的陰影和頭發(fā)厚度呈現(xiàn)。此自動(dòng)編碼器的隨機(jī)數(shù)種子來(lái)自于由OpenGL幾何體生成的有限隨機(jī)數(shù)樣本。
由這種方法途徑,就可以只渲染有限數(shù)量的、具有隨機(jī)透明度的樣本,然后訓(xùn)練U-net來(lái)重建原始圖像。
該神經(jīng)網(wǎng)絡(luò)在PyTorch上進(jìn)行訓(xùn)練,可以在6-12小時(shí)內(nèi)完成訓(xùn)練達(dá)到收斂,具體市場(chǎng)取決于神經(jīng)網(wǎng)絡(luò)體量和輸入特征值的數(shù)量。然后將訓(xùn)練的參數(shù)(權(quán)重)用于圖像系統(tǒng)的實(shí)時(shí)實(shí)現(xiàn)。
訓(xùn)練數(shù)據(jù)集,則是通過(guò)以隨機(jī)距離、姿勢(shì)以及不同的照明條件,來(lái)渲染數(shù)百?gòu)堉卑l(fā)和波浪發(fā)型的實(shí)際圖片而生成的。
樣本中的發(fā)絲半透明度數(shù)值,是從在超采樣分辨率條件下、以隨機(jī)透明度渲染的圖像平均求得的。
原始的高分辨率數(shù)據(jù),先被降采樣,以適應(yīng)網(wǎng)絡(luò)和硬件限制;然后在典型的自動(dòng)編碼器工作流程中進(jìn)行上采樣,以提高清晰度。
利用從訓(xùn)練模型派生的算法的「實(shí)時(shí)」軟件,作為此AI模型的實(shí)時(shí)推理應(yīng)用程序,采用了NVIDIA CUDA、cuDNN和OpenGL的混合。
初始輸入特征值被轉(zhuǎn)儲(chǔ)到OpenGL的多重采樣顏色緩沖區(qū)中,其處理結(jié)果在CNN中繼續(xù)處理前會(huì)分流到cuDNN張量,然后這些張量將會(huì)被復(fù)制回「實(shí)時(shí)」OpenGL紋理中,以施加到最終圖像中。
這個(gè)AI的實(shí)時(shí)運(yùn)行硬件是一張NVIDIA RTX 2080顯卡,產(chǎn)生的圖像分辨率是1024x1024像素。
由于頭發(fā)顏色的數(shù)據(jù)值與神經(jīng)網(wǎng)絡(luò)AI處理的最終值是完全分離的,因此改變頭發(fā)顏色是一項(xiàng)容易的任務(wù),盡管虛擬發(fā)絲的漸變和條紋等效果仍然將在未來(lái)構(gòu)成挑戰(zhàn)。
結(jié)論
探索自動(dòng)編碼器或GAN的潛在空間,仍然更類似于靠直覺(jué)的駕帆船,而非精確駕駛。只有在最近的時(shí)段,業(yè)界才開(kāi)始看到在NeRF、GAN和非deepfake(2017)自動(dòng)編碼器框架等方法中生成「更簡(jiǎn)單」的幾何形狀(如人臉)的可靠結(jié)果。
人類頭發(fā)顯著的結(jié)構(gòu)復(fù)雜性,加上需要結(jié)合當(dāng)前物理模型和圖像合成方法無(wú)法提供的其他特征,表明頭發(fā)合成不太可能仍然只是一般面部合成模型中的一個(gè)集成組件。此任務(wù)需要復(fù)雜的、專用的和獨(dú)立的神經(jīng)網(wǎng)絡(luò)AI來(lái)完成,即使這些神經(jīng)網(wǎng)絡(luò)最終可能會(huì)被納入更廣泛、更復(fù)雜的面部合成框架中。