自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="trjhn"><rp id="trjhn"><form id="trjhn"></form></rp></cite>

<blockquote id="trjhn"><p id="trjhn"></p></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

微軟炸裂級(jí)單圖生數(shù)字人，Sora同款思路，“比AI劉強(qiáng)東還真” 精華

發(fā)布于 2024-4-19 10:06

瀏覽

0收藏

AI偽造真人視頻，門檻再次降低。

微軟發(fā)布一張圖生成數(shù)字人技術(shù)VASA-1，網(wǎng)友看過直呼“炸裂級(jí)效果”，比“AI劉強(qiáng)東還真”。

微軟炸裂級(jí)單圖生數(shù)字人，Sora同款思路，“比AI劉強(qiáng)東還真”-AI.x社區(qū)

做到以假亂真效果，不用針對(duì)特定人物訓(xùn)練，只要上傳一張人臉圖片、一段音頻，哪怕不是真人也行。

比如可以讓蒙娜麗莎唱Rap，模仿安妮海瑟薇即興吐槽狗仔隊(duì)名場(chǎng)面。

或者讓素描人像念華強(qiáng)臺(tái)詞。

在項(xiàng)目主頁還有更多1分鐘視頻，以及更更多15秒視頻可看。

不同性別、年齡、種族的數(shù)字人，用著不同的口音在說話。

微軟炸裂級(jí)單圖生數(shù)字人，Sora同款思路，“比AI劉強(qiáng)東還真”-AI.x社區(qū)

根據(jù)團(tuán)隊(duì)在論文中的描述，VASA-1擁有如下特點(diǎn)：

唇形與語音的精準(zhǔn)同步

這是最基本的，VASA-1在定量評(píng)估中也做到了頂尖水平。

豐富而自然的面部表情

不光做到讓照片“開口說話”，眉毛、眼神、微表情等也跟著協(xié)調(diào)運(yùn)動(dòng)，避免顯得呆板。

人性化的頭部動(dòng)作

說話時(shí)適當(dāng)?shù)狞c(diǎn)頭、搖頭、歪頭等動(dòng)作，能讓人物看起來更加鮮活、更有說服力。

總得來說，仔細(xì)看的話眼睛還有一些破綻，但已經(jīng)被網(wǎng)友評(píng)為“迄今為止最佳演示”。

微軟炸裂級(jí)單圖生數(shù)字人，Sora同款思路，“比AI劉強(qiáng)東還真”-AI.x社區(qū)

然而更恐怖的是，整個(gè)系統(tǒng)推理速度還是實(shí)時(shí)級(jí)的。

生成512x512分辨率的視頻，使用一塊英偉達(dá)RTX4090顯卡就能跑到40fps。

那么，VASA-1是如何做到這些的呢?

3大關(guān)鍵技術(shù)，Sora同款思路

一句話概括：

不是直接生成視頻幀，而是在潛空間中生成動(dòng)作編碼，再還原成視頻。

?

是不是和Sora的思路很像了？

其實(shí)VASA-1的模型架構(gòu)選擇Diffusion Transformer，也與Sora核心組件一致。

微軟炸裂級(jí)單圖生數(shù)字人，Sora同款思路，“比AI劉強(qiáng)東還真”-AI.x社區(qū)

據(jù)論文描述，背后還有3大關(guān)鍵技術(shù):

微軟炸裂級(jí)單圖生數(shù)字人，Sora同款思路，“比AI劉強(qiáng)東還真”-AI.x社區(qū)

人臉潛編碼學(xué)習(xí)，這部分是高度解耦的。

團(tuán)隊(duì)從大量個(gè)真實(shí)的說話視頻中，學(xué)習(xí)到一個(gè)理想的人臉特征空間。

把身份、外觀、表情、姿態(tài)等因素在隱空間里剝離開。這樣一來，同一個(gè)動(dòng)作就能驅(qū)動(dòng)不同的臉，換成誰都很自然。

微軟炸裂級(jí)單圖生數(shù)字人，Sora同款思路，“比AI劉強(qiáng)東還真”-AI.x社區(qū)

頭部運(yùn)動(dòng)生成模型，這部分又是高度統(tǒng)一的。

不同于之前的方法分別建模嘴唇、眼神、眉毛、頭部姿態(tài)等局部動(dòng)作，VASA-1把所有面部動(dòng)態(tài)統(tǒng)一編碼，用Diffution Transfromer模型，也就是SORA同款核心組件，來建模其概率分布。

這樣既能生成更協(xié)調(diào)自然的整體動(dòng)作，又能借助transformer強(qiáng)大的時(shí)序建模能力，學(xué)習(xí)長(zhǎng)時(shí)依賴。

比如給定一組原始序列（下圖第一列），最終可以做到：

用原始頭部姿態(tài)，改變面部表情（第二列）
用原始面部表情，改變頭部姿態(tài)（第三列）
用原始面部表情，生成全新的頭部姿態(tài)（第四列）

微軟炸裂級(jí)單圖生數(shù)字人，Sora同款思路，“比AI劉強(qiáng)東還真”-AI.x社區(qū)

最后是高效率推理。

為了實(shí)現(xiàn)秒實(shí)時(shí)合成，團(tuán)隊(duì)對(duì)擴(kuò)散模型的推理過程進(jìn)行了大量?jī)?yōu)化。

此外，VASA-1還允許用戶輸入一些可選的控制信號(hào)，比如人物的視線方向、情緒基調(diào)等，進(jìn)一步提升了可控性。

微軟炸裂級(jí)單圖生數(shù)字人，Sora同款思路，“比AI劉強(qiáng)東還真”-AI.x社區(qū)

AI造假成本越來越低了

被VASA-1效果震驚過后，很多人開始思考，把AI數(shù)字人做到如此逼真，發(fā)布這樣一個(gè)技術(shù)真的合適嗎？

微軟炸裂級(jí)單圖生數(shù)字人，Sora同款思路，“比AI劉強(qiáng)東還真”-AI.x社區(qū)

微軟炸裂級(jí)單圖生數(shù)字人，Sora同款思路，“比AI劉強(qiáng)東還真”-AI.x社區(qū)

畢竟用AI偽造音頻視頻詐騙的例子，我們已經(jīng)見過太多。

就在2個(gè)多月前，還有一起假冒公司CFO開視頻會(huì)議，直接騙走1.8個(gè)億的案件發(fā)生。

微軟團(tuán)隊(duì)也意識(shí)到了這一問題，并作出如下聲明：

我們的研究重點(diǎn)是為數(shù)字人生成視覺情感，旨在實(shí)現(xiàn)積極的應(yīng)用。無意創(chuàng)建用于誤導(dǎo)或欺騙的內(nèi)容。

然而，與其他相關(guān)內(nèi)容生成技術(shù)一樣，它仍然可能被濫用于模仿人類。

我們反對(duì)任何創(chuàng)造真實(shí)人物的誤導(dǎo)性或有害內(nèi)容的行為，并且有興趣應(yīng)用我們的技術(shù)來推進(jìn)偽造檢測(cè)……

目前VASA-1只發(fā)布了論文，看來短時(shí)間內(nèi)也不會(huì)發(fā)布Demo或開源代碼了。

微軟表示，該方法生成的視頻仍然包含可識(shí)別的痕跡，數(shù)值分析表明，距離真實(shí)視頻的真實(shí)性仍有差距。

不上專業(yè)評(píng)估手段，肉眼看的話，仔細(xì)挑刺或直接對(duì)比真人視頻，確實(shí)也能發(fā)現(xiàn)目前VASA-1演示視頻中的一些瑕疵。

比如牙齒偶爾會(huì)變形。

微軟炸裂級(jí)單圖生數(shù)字人，Sora同款思路，“比AI劉強(qiáng)東還真”-AI.x社區(qū)

以及眼神還不像真人那么豐富。（眼睛確實(shí)是心靈的窗戶?。?/p>

微軟炸裂級(jí)單圖生數(shù)字人，Sora同款思路，“比AI劉強(qiáng)東還真”-AI.x社區(qū)

但是以“AIGC一天，人間一年”的進(jìn)步速度來看，修復(fù)這些瑕疵恐怕也不用很久。

以及你能保證每時(shí)每刻都保持警惕分辨視頻真假么？

眼見不再為實(shí)。默認(rèn)不相信任何視頻，成了很多人今天做出的選擇。

微軟炸裂級(jí)單圖生數(shù)字人，Sora同款思路，“比AI劉強(qiáng)東還真”-AI.x社區(qū)

不管怎么樣，正如一位網(wǎng)友總結(jié)。

我們無法撤銷已經(jīng)完成的發(fā)明，只能擁抱未來。

微軟炸裂級(jí)單圖生數(shù)字人，Sora同款思路，“比AI劉強(qiáng)東還真”-AI.x社區(qū)

論文地址：https://arxiv.org/abs/2404.10667

本文轉(zhuǎn)自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/WI20-hzn0tJOPo9_vKtTuQ??

標(biāo)簽

數(shù)字人

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

微軟新作「Mora」，復(fù)原了Sora

pangguiyu ? 2299瀏覽 ? 0回復(fù)
微軟「詐騙屆」王牌框架，真到可怕！一張照片+音頻即可生成數(shù)字人

duhorse ? 2049瀏覽 ? 0回復(fù)
AI新動(dòng)能: 數(shù)字人三大特征八大場(chǎng)景

數(shù)字化助推器 ? 3172瀏覽 ? 0回復(fù)
史上最丑AI生圖一夜爆火！又一款妙鴨級(jí)爆品來了？

duhorse ? 3287瀏覽 ? 0回復(fù)
AI編碼，真需求還是噱頭？

51CTO技術(shù)棧 ? 2778瀏覽 ? 0回復(fù)
文本分塊哪家強(qiáng)？LumberChunker、語義分塊、段落級(jí)、循環(huán)分塊、HyDE、命題級(jí)

PaperAgent ? 3525瀏覽 ? 0回復(fù)
快手開源圖生視頻模型LivePortrait，等待生成時(shí)間僅需10秒，棄擴(kuò)散改用隱式關(guān)鍵點(diǎn)框架技術(shù)，網(wǎng)友：強(qiáng)得可怕

51CTO技術(shù)棧 ? 5512瀏覽 ? 0回復(fù)
與Sora同架構(gòu)，高效、連貫文生視頻模型

Aceryt ? 2039瀏覽 ? 0回復(fù)
前谷歌大佬祭出AI生圖2.0，全網(wǎng)驚艷實(shí)測(cè)

duhorse ? 1943瀏覽 ? 0回復(fù)
10款殺手級(jí)AI編程助手，Python開發(fā)更輕松

小虎哦哦 ? 1.0w瀏覽 ? 0回復(fù)
微軟發(fā)布Mora視頻模型，吊打Sora？

echo_ning ? 1708瀏覽 ? 0回復(fù)
微軟、IDC聯(lián)合發(fā)布：企業(yè)級(jí)生成式AI，五大應(yīng)用趨勢(shì)

Aceryt ? 1665瀏覽 ? 0回復(fù)
Kimi深夜炸場(chǎng)：滿血版多模態(tài)o1級(jí)推理模型！OpenAI外全球首次！Jim Fan：同天兩款國(guó)產(chǎn)o1絕對(duì)不是巧合！

51CTO技術(shù)棧 ? 1674瀏覽 ? 0回復(fù)
奧特曼稱OpenAI的GPU已用光，還透露了一個(gè)“轉(zhuǎn)型”思路？

51CTO技術(shù)棧 ? 1669瀏覽 ? 0回復(fù)
微軟發(fā)布Magma：跨越數(shù)字與物理世界的多模態(tài)AI基礎(chǔ)模型

Halo咯咯 ? 2006瀏覽 ? 0回復(fù)
告別粗糙AI生成！BlobCtrl帶你玩轉(zhuǎn)元素級(jí)視覺編輯，效果炸裂！(北大&港中文&騰訊)

angel ? 1280瀏覽 ? 0回復(fù)
騰訊超預(yù)期成績(jī)單發(fā)布！雙位數(shù)增長(zhǎng)，微信收入翻倍！劉熾平：資本支出增長(zhǎng)三倍，猛追AI基建，今年將支出千億

51CTO技術(shù)棧 ? 1065瀏覽 ? 0回復(fù)
比DeepSeek快8倍！智譜AI開源6款模型，推理速度200 tokens/秒碾壓競(jìng)品，價(jià)格僅1/30！

AI博物院 ? 1615瀏覽 ? 0回復(fù)
讓數(shù)字人視頻告別"恐怖谷"！字節(jié)團(tuán)隊(duì)最新DreamActor-M1實(shí)現(xiàn)人類表情動(dòng)作像素級(jí)操控

angel ? 602瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

何愷明開辟分形圖像生成新范式！計(jì)算效率提高4000倍，首次實(shí)現(xiàn)高分辨率逐像素生成 2025-02-26 11:59:41發(fā)布
達(dá)摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩 2025-02-14 13:02:21發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： Llama 3突然來襲！開源社區(qū)再次沸騰：GPT-4級(jí)別模型可以自由訪問的時(shí)代到來

下一篇：輕松拿捏4K高清圖像理解！這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容，打工人簡(jiǎn)直不要太方便

社區(qū)精華內(nèi)容

目錄

^{<thead id="vodbq"></thead>}

<sub id="vodbq"></sub>

<sub id="vodbq"><rt id="vodbq"></rt></sub>

<abbr id="vodbq"></abbr>