自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟炸裂級(jí)單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真” 精華

發(fā)布于 2024-4-19 10:06
瀏覽
0收藏

AI偽造真人視頻,門檻再次降低。


微軟發(fā)布一張圖生成數(shù)字人技術(shù)VASA-1,網(wǎng)友看過直呼“炸裂級(jí)效果”,比“AI劉強(qiáng)東還真”。

微軟炸裂級(jí)單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

做到以假亂真效果,不用針對(duì)特定人物訓(xùn)練,只要上傳一張人臉圖片、一段音頻,哪怕不是真人也行。


比如可以讓蒙娜麗莎唱Rap,模仿安妮海瑟薇即興吐槽狗仔隊(duì)名場(chǎng)面。


或者讓素描人像念華強(qiáng)臺(tái)詞。


在項(xiàng)目主頁還有更多1分鐘視頻,以及更更多15秒視頻可看。


不同性別、年齡、種族的數(shù)字人,用著不同的口音在說話。

微軟炸裂級(jí)單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

根據(jù)團(tuán)隊(duì)在論文中的描述,VASA-1擁有如下特點(diǎn):

  • 唇形與語音的精準(zhǔn)同步

這是最基本的,VASA-1在定量評(píng)估中也做到了頂尖水平。

  • 豐富而自然的面部表情

不光做到讓照片“開口說話”,眉毛、眼神、微表情等也跟著協(xié)調(diào)運(yùn)動(dòng),避免顯得呆板。

  • 人性化的頭部動(dòng)作

說話時(shí)適當(dāng)?shù)狞c(diǎn)頭、搖頭、歪頭等動(dòng)作,能讓人物看起來更加鮮活、更有說服力。

總得來說,仔細(xì)看的話眼睛還有一些破綻,但已經(jīng)被網(wǎng)友評(píng)為“迄今為止最佳演示”。

微軟炸裂級(jí)單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

然而更恐怖的是,整個(gè)系統(tǒng)推理速度還是實(shí)時(shí)級(jí)的。


生成512x512分辨率的視頻,使用一塊英偉達(dá)RTX4090顯卡就能跑到40fps。

那么,VASA-1是如何做到這些的呢?

3大關(guān)鍵技術(shù),Sora同款思路

一句話概括:

不是直接生成視頻幀,而是在潛空間中生成動(dòng)作編碼,再還原成視頻。

?

是不是和Sora的思路很像了?


其實(shí)VASA-1的模型架構(gòu)選擇Diffusion Transformer,也與Sora核心組件一致。

微軟炸裂級(jí)單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

據(jù)論文描述,背后還有3大關(guān)鍵技術(shù):

微軟炸裂級(jí)單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

人臉潛編碼學(xué)習(xí),這部分是高度解耦的。


團(tuán)隊(duì)從大量個(gè)真實(shí)的說話視頻中,學(xué)習(xí)到一個(gè)理想的人臉特征空間。


把身份、外觀、表情、姿態(tài)等因素在隱空間里剝離開。這樣一來,同一個(gè)動(dòng)作就能驅(qū)動(dòng)不同的臉,換成誰都很自然。

微軟炸裂級(jí)單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

頭部運(yùn)動(dòng)生成模型,這部分又是高度統(tǒng)一的。


不同于之前的方法分別建模嘴唇、眼神、眉毛、頭部姿態(tài)等局部動(dòng)作,VASA-1把所有面部動(dòng)態(tài)統(tǒng)一編碼,用Diffution Transfromer模型,也就是SORA同款核心組件,來建模其概率分布。


這樣既能生成更協(xié)調(diào)自然的整體動(dòng)作,又能借助transformer強(qiáng)大的時(shí)序建模能力,學(xué)習(xí)長(zhǎng)時(shí)依賴。


比如給定一組原始序列(下圖第一列),最終可以做到:

  • 用原始頭部姿態(tài),改變面部表情(第二列)
  • 用原始面部表情,改變頭部姿態(tài)(第三列)
  • 用原始面部表情,生成全新的頭部姿態(tài)(第四列)

微軟炸裂級(jí)單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

最后是高效率推理。


為了實(shí)現(xiàn)秒實(shí)時(shí)合成,團(tuán)隊(duì)對(duì)擴(kuò)散模型的推理過程進(jìn)行了大量?jī)?yōu)化。


此外,VASA-1還允許用戶輸入一些可選的控制信號(hào),比如人物的視線方向、情緒基調(diào)等,進(jìn)一步提升了可控性。

微軟炸裂級(jí)單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

AI造假成本越來越低了

被VASA-1效果震驚過后,很多人開始思考,把AI數(shù)字人做到如此逼真,發(fā)布這樣一個(gè)技術(shù)真的合適嗎?

微軟炸裂級(jí)單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

微軟炸裂級(jí)單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

畢竟用AI偽造音頻視頻詐騙的例子,我們已經(jīng)見過太多。


就在2個(gè)多月前,還有一起假冒公司CFO開視頻會(huì)議,直接騙走1.8個(gè)億的案件發(fā)生。

微軟團(tuán)隊(duì)也意識(shí)到了這一問題,并作出如下聲明:


我們的研究重點(diǎn)是為數(shù)字人生成視覺情感,旨在實(shí)現(xiàn)積極的應(yīng)用。無意創(chuàng)建用于誤導(dǎo)或欺騙的內(nèi)容。


然而,與其他相關(guān)內(nèi)容生成技術(shù)一樣,它仍然可能被濫用于模仿人類。


我們反對(duì)任何創(chuàng)造真實(shí)人物的誤導(dǎo)性或有害內(nèi)容的行為,并且有興趣應(yīng)用我們的技術(shù)來推進(jìn)偽造檢測(cè)……


目前VASA-1只發(fā)布了論文,看來短時(shí)間內(nèi)也不會(huì)發(fā)布Demo或開源代碼了。


微軟表示,該方法生成的視頻仍然包含可識(shí)別的痕跡,數(shù)值分析表明,距離真實(shí)視頻的真實(shí)性仍有差距。


不上專業(yè)評(píng)估手段,肉眼看的話,仔細(xì)挑刺或直接對(duì)比真人視頻,確實(shí)也能發(fā)現(xiàn)目前VASA-1演示視頻中的一些瑕疵。


比如牙齒偶爾會(huì)變形。

微軟炸裂級(jí)單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

以及眼神還不像真人那么豐富。(眼睛確實(shí)是心靈的窗戶?。?/p>

微軟炸裂級(jí)單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

但是以“AIGC一天,人間一年”的進(jìn)步速度來看,修復(fù)這些瑕疵恐怕也不用很久。

以及你能保證每時(shí)每刻都保持警惕分辨視頻真假么?


眼見不再為實(shí)。默認(rèn)不相信任何視頻,成了很多人今天做出的選擇。

微軟炸裂級(jí)單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

不管怎么樣,正如一位網(wǎng)友總結(jié)。

我們無法撤銷已經(jīng)完成的發(fā)明,只能擁抱未來。

微軟炸裂級(jí)單圖生數(shù)字人,Sora同款思路,“比AI劉強(qiáng)東還真”-AI.x社區(qū)

論文地址:https://arxiv.org/abs/2404.10667


本文轉(zhuǎn)自 量子位,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/WI20-hzn0tJOPo9_vKtTuQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦