五官亂飛,張嘴、瞪眼、挑眉,AI都能模仿到位,視頻詐騙要防不住了
防不住,根本防不住,現(xiàn)在 AI 模仿能力已經(jīng)發(fā)展到這種程度了?
你前腳讓自己的五官亂飛,后腳,一模一樣的表情就被復(fù)現(xiàn)出來,瞪眼、挑眉、嘟嘴,不管多么夸張的表情,都模仿的非常到位。
加大難度,讓眉毛挑的再高些,眼睛睜的再大些,甚至連嘴型都是歪的,虛擬人物頭像也能完美復(fù)現(xiàn)表情。
你在左邊調(diào)節(jié)參數(shù),右面的虛擬頭像也會跟著變換動作:
給嘴巴、眼睛一個特寫,模仿的不能說完全相同,只能說表情一模一樣(最右邊)。
這項研究來自慕尼黑工業(yè)大學(xué)等機(jī)構(gòu),他們提出了 GaussianAvatars,這種方法可用來創(chuàng)建在表情,姿態(tài)和視角( viewpoint )方面完全可控的逼真頭部虛擬( head avatars)。
- 論文地址:https://arxiv.org/pdf/2312.02069.pdf
- 論文主頁:https://shenhanqian.github.io/gaussian-avatars
該研究表示,在計算機(jī)視覺和圖形學(xué)中,創(chuàng)造可以動的人類虛擬頭部一直存在挑戰(zhàn),特別是,極端的面部表情和細(xì)節(jié),如皺紋、頭發(fā)等這些細(xì)節(jié)都很難捕捉,生成的虛擬人物很容易出現(xiàn)視覺偽影。
一直以來,神經(jīng)輻射場(NeRF )及其變體在從多視圖觀察中重建靜態(tài)場景方面顯示出了令人印象深刻的結(jié)果。后續(xù)研究又進(jìn)行了擴(kuò)展,使得 NeRF 可用于人類定制場景的動態(tài)場景建模。然而,這些方法缺乏可控性,因此不能很好地泛化到新的姿態(tài)和表情。
最近新出現(xiàn)的「3D Gaussian Splatting」方法實現(xiàn)了比 NeRF 更高的渲染質(zhì)量,可用于實時的視圖合成。然而,這種方法不允許重建輸出的動畫。
本文提出了 GaussianAvatars,這是一種基于三維高斯 splats 的動態(tài) 3D 人頭表示方法。
具體而言,給定一個 FLAME(對整個頭部進(jìn)行建模)網(wǎng)格 ,他們在每個三角形的中心初始化一個 3D 高斯。當(dāng)將 FLAME 網(wǎng)格動畫化時,每個高斯模型都會根據(jù)其父三角形進(jìn)行平移、旋轉(zhuǎn)和縮放。然后,3D 高斯在網(wǎng)格頂部形成輻射場,補償網(wǎng)格未準(zhǔn)確對齊或無法再現(xiàn)某些視覺元素的區(qū)域。
為了實現(xiàn)重建虛擬人物的高保真度,本文引入了綁定繼承策略。此外,本文還探索了如何平衡保真度和魯棒性,以新穎的表情和姿態(tài)來動畫化虛擬人物。結(jié)果表明,GaussianAvatars 在新穎視圖渲染、駕駛視頻重現(xiàn)等方面都遠(yuǎn)遠(yuǎn)優(yōu)于現(xiàn)有的研究。
方法簡介
如下圖 2 所示,GaussianAvatars 的輸入是人頭的多視圖視頻記錄。對于每個時間步,GaussianAvatars 使用光度頭部跟蹤器(head tracker)將 FLAME 參數(shù)與多視圖觀察和已知相機(jī)參數(shù)相匹配。
FLAME 網(wǎng)格的頂點位于不同的位置,但共享相同的拓?fù)?,因此研究團(tuán)隊可以在網(wǎng)格三角形和 3D 高斯splat之間建立一致的連接。通過可微分的圖塊光柵器(tile rasterizer)將splat渲染成圖像。然后,這些圖像由真實圖像監(jiān)督,以學(xué)習(xí)逼真的人體頭部頭像。
靜態(tài)場景還需要通過一組自適應(yīng)密度控制操作來致密化和修剪高斯splat以獲得最佳質(zhì)量。為了在不破壞三角形和splat之間連接的情況下實現(xiàn)這一點,研究團(tuán)隊設(shè)計了一種綁定繼承(binding inheritance)策略,以便新的高斯點與 FLAME 網(wǎng)格保持綁定。
實驗結(jié)果
該研究通過新視圖合成來評估重建質(zhì)量,并通過 self-reenactment 來評估動畫保真度。下圖 3 顯示了定性比較結(jié)果。對于新視圖合成,所有方法都會產(chǎn)生合理的渲染結(jié)果。對 PointAvatar 的結(jié)果的仔細(xì)檢查顯示,由于其固定的點大小,出現(xiàn)了點狀偽影,而 GaussianAvatars 通過3D 高斯的各向異性縮放緩解了這個問題。
從表 1 的定量比較中也可以得出類似的結(jié)論。GaussianAvatars 在新視圖合成指標(biāo)方面遠(yuǎn)遠(yuǎn)優(yōu)于其他方法,在 self-reenactment 方面也很突出,在 LPIPS 方面的感知差異顯著降低。請注意,self-reenactment 基于跟蹤的 FLAME 網(wǎng)格,可能無法與目標(biāo)圖像完美對齊。
為了對虛擬形象動畫進(jìn)行現(xiàn)實世界的測試,該研究對圖 4 中的 cross-identity reenactment 進(jìn)行了實驗,虛擬形象準(zhǔn)確地再現(xiàn)了源演員的眨眼和嘴巴動作,顯示出活潑、復(fù)雜的動態(tài),例如皺紋。
為了驗證方法組件的有效性,該研究還進(jìn)行了消融實驗,結(jié)果如下圖。