微軟炸裂級(jí)單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真” 精華
AI偽造真人視頻,門檻再次降低。
微軟發(fā)布一張圖生成數(shù)字人技術(shù)VASA-1,網(wǎng)友看過直呼“炸裂級(jí)效果”,比“AI劉強(qiáng)東還真”。
做到以假亂真效果,不用針對(duì)特定人物訓(xùn)練,只要上傳一張人臉圖片、一段音頻,哪怕不是真人也行。
比如可以讓蒙娜麗莎唱Rap,模仿安妮海瑟薇即興吐槽狗仔隊(duì)名場(chǎng)面。
或者讓素描人像念華強(qiáng)臺(tái)詞。
在項(xiàng)目主頁還有更多1分鐘視頻,以及更更多15秒視頻可看。
不同性別、年齡、種族的數(shù)字人,用著不同的口音在說話。
根據(jù)團(tuán)隊(duì)在論文中的描述,VASA-1擁有如下特點(diǎn):
- 唇形與語音的精準(zhǔn)同步
這是最基本的,VASA-1在定量評(píng)估中也做到了頂尖水平。
- 豐富而自然的面部表情
不光做到讓照片“開口說話”,眉毛、眼神、微表情等也跟著協(xié)調(diào)運(yùn)動(dòng),避免顯得呆板。
- 人性化的頭部動(dòng)作
說話時(shí)適當(dāng)?shù)狞c(diǎn)頭、搖頭、歪頭等動(dòng)作,能讓人物看起來更加鮮活、更有說服力。
總得來說,仔細(xì)看的話眼睛還有一些破綻,但已經(jīng)被網(wǎng)友評(píng)為“迄今為止最佳演示”。
然而更恐怖的是,整個(gè)系統(tǒng)推理速度還是實(shí)時(shí)級(jí)的。
生成512x512分辨率的視頻,使用一塊英偉達(dá)RTX4090顯卡就能跑到40fps。
那么,VASA-1是如何做到這些的呢?
3大關(guān)鍵技術(shù),Sora同款思路
一句話概括:
不是直接生成視頻幀,而是在潛空間中生成動(dòng)作編碼,再還原成視頻。
?
是不是和Sora的思路很像了?
其實(shí)VASA-1的模型架構(gòu)選擇Diffusion Transformer,也與Sora核心組件一致。
據(jù)論文描述,背后還有3大關(guān)鍵技術(shù):
人臉潛編碼學(xué)習(xí),這部分是高度解耦的。
團(tuán)隊(duì)從大量個(gè)真實(shí)的說話視頻中,學(xué)習(xí)到一個(gè)理想的人臉特征空間。
把身份、外觀、表情、姿態(tài)等因素在隱空間里剝離開。這樣一來,同一個(gè)動(dòng)作就能驅(qū)動(dòng)不同的臉,換成誰都很自然。
頭部運(yùn)動(dòng)生成模型,這部分又是高度統(tǒng)一的。
不同于之前的方法分別建模嘴唇、眼神、眉毛、頭部姿態(tài)等局部動(dòng)作,VASA-1把所有面部動(dòng)態(tài)統(tǒng)一編碼,用Diffution Transfromer模型,也就是SORA同款核心組件,來建模其概率分布。
這樣既能生成更協(xié)調(diào)自然的整體動(dòng)作,又能借助transformer強(qiáng)大的時(shí)序建模能力,學(xué)習(xí)長(zhǎng)時(shí)依賴。
比如給定一組原始序列(下圖第一列),最終可以做到:
- 用原始頭部姿態(tài),改變面部表情(第二列)
- 用原始面部表情,改變頭部姿態(tài)(第三列)
- 用原始面部表情,生成全新的頭部姿態(tài)(第四列)
最后是高效率推理。
為了實(shí)現(xiàn)秒實(shí)時(shí)合成,團(tuán)隊(duì)對(duì)擴(kuò)散模型的推理過程進(jìn)行了大量?jī)?yōu)化。
此外,VASA-1還允許用戶輸入一些可選的控制信號(hào),比如人物的視線方向、情緒基調(diào)等,進(jìn)一步提升了可控性。
AI造假成本越來越低了
被VASA-1效果震驚過后,很多人開始思考,把AI數(shù)字人做到如此逼真,發(fā)布這樣一個(gè)技術(shù)真的合適嗎?
畢竟用AI偽造音頻視頻詐騙的例子,我們已經(jīng)見過太多。
就在2個(gè)多月前,還有一起假冒公司CFO開視頻會(huì)議,直接騙走1.8個(gè)億的案件發(fā)生。
微軟團(tuán)隊(duì)也意識(shí)到了這一問題,并作出如下聲明:
我們的研究重點(diǎn)是為數(shù)字人生成視覺情感,旨在實(shí)現(xiàn)積極的應(yīng)用。無意創(chuàng)建用于誤導(dǎo)或欺騙的內(nèi)容。
然而,與其他相關(guān)內(nèi)容生成技術(shù)一樣,它仍然可能被濫用于模仿人類。
我們反對(duì)任何創(chuàng)造真實(shí)人物的誤導(dǎo)性或有害內(nèi)容的行為,并且有興趣應(yīng)用我們的技術(shù)來推進(jìn)偽造檢測(cè)……
目前VASA-1只發(fā)布了論文,看來短時(shí)間內(nèi)也不會(huì)發(fā)布Demo或開源代碼了。
微軟表示,該方法生成的視頻仍然包含可識(shí)別的痕跡,數(shù)值分析表明,距離真實(shí)視頻的真實(shí)性仍有差距。
不上專業(yè)評(píng)估手段,肉眼看的話,仔細(xì)挑刺或直接對(duì)比真人視頻,確實(shí)也能發(fā)現(xiàn)目前VASA-1演示視頻中的一些瑕疵。
比如牙齒偶爾會(huì)變形。
以及眼神還不像真人那么豐富。(眼睛確實(shí)是心靈的窗戶?。?/p>
但是以“AIGC一天,人間一年”的進(jìn)步速度來看,修復(fù)這些瑕疵恐怕也不用很久。
以及你能保證每時(shí)每刻都保持警惕分辨視頻真假么?
眼見不再為實(shí)。默認(rèn)不相信任何視頻,成了很多人今天做出的選擇。
不管怎么樣,正如一位網(wǎng)友總結(jié)。
我們無法撤銷已經(jīng)完成的發(fā)明,只能擁抱未來。
論文地址:https://arxiv.org/abs/2404.10667
本文轉(zhuǎn)自 量子位,作者:量子位
