自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="4jxuo"><rt id="4jxuo"></rt></sub>

<style id="4jxuo"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

谷歌發(fā)布“Vlogger”模型：?jiǎn)螐垐D片生成10秒視頻

作者：量子位 2024-03-20 12:27:48

人工智能新聞

只需要一張你的頭像、一段講話錄音，就能得到一個(gè)本人栩栩如生的演講視頻。

谷歌發(fā)布了一個(gè)新的視頻框架：

只需要一張你的頭像、一段講話錄音，就能得到一個(gè)本人栩栩如生的演講視頻。

視頻時(shí)長(zhǎng)可變，目前看到的示例最高為10s。

可以看到，無論是口型還是面部表情，它都非常自然。

如果輸入圖像囊括整個(gè)上半身，它也能配合豐富的手勢(shì)：

網(wǎng)友看完就表示：

有了它，以后咱開線上視頻會(huì)議再也不需要整理好發(fā)型、穿好衣服再去了。

嗯，拍一張肖像，錄好演講音頻就可以（手動(dòng)狗頭）

用聲音控制肖像生成視頻

這個(gè)框架名叫VLOGGER。

它主要基于擴(kuò)散模型，并包含兩部分：

一個(gè)是隨機(jī)的人體到3D運(yùn)動(dòng)（human-to-3d-motion）擴(kuò)散模型。

另一個(gè)是用于增強(qiáng)文本到圖像模型的新擴(kuò)散架構(gòu)。

其中，前者負(fù)責(zé)將音頻波形作為輸入，生成人物的身體控制動(dòng)作，包括眼神、表情和手勢(shì)、身體整體姿勢(shì)等等。

后者則是一個(gè)時(shí)間維度的圖像到圖像模型，用于擴(kuò)展大型圖像擴(kuò)散模型，使用剛剛預(yù)測(cè)的動(dòng)作來生成相應(yīng)的幀。

為了使結(jié)果符合特定的人物形象，VLOGGER還將參數(shù)圖像的pose圖作為輸入。

VLOGGER的訓(xùn)練是在一個(gè)超大的數(shù)據(jù)集（名叫MENTOR）上完成的。

有多大？全長(zhǎng)2200小時(shí)，共包含80萬(wàn)個(gè)人物視頻。

其中，測(cè)試集的視頻時(shí)長(zhǎng)也有120小時(shí)長(zhǎng)，共計(jì)4000個(gè)人物。

谷歌介紹，VLOGGER最突出的表現(xiàn)是具備多樣性：

如下圖所示，最后的像素圖顏色越深（紅）的部分，代表動(dòng)作越豐富。

而和業(yè)內(nèi)此前的同類方法相比，VLOGGER最大的優(yōu)勢(shì)則體現(xiàn)在不需要對(duì)每個(gè)人進(jìn)行訓(xùn)練、也不依賴于面部檢測(cè)和裁剪，并且生成的視頻很完整（既包括面部和唇部，也包括肢體動(dòng)作）等等。

具體來看，如下表所示：

Face Reenactment方法無法用音頻和文本來控制此類視頻生成。

Audio-to-motion倒是可以音頻生成，方式也是將音頻編碼為3D人臉動(dòng)作，不過它生成的效果不夠逼真。

Lip sync可以處理不同主題的視頻，但只能模擬嘴部動(dòng)作。

對(duì)比起來，后面的兩種方法SadTaker和Styletalk表現(xiàn)最接近谷歌VLOGGER，但也敗在了不能進(jìn)行身體控制上，并且也不能進(jìn)一步編輯視頻。

說到視頻編輯，如下圖所示，VLOGGER模型的應(yīng)用之一就是這個(gè)，它可以一鍵讓人物閉嘴、閉眼、只閉左眼或者全程睜眼：

另一個(gè)應(yīng)用則是視頻翻譯：

例如將原視頻的英語(yǔ)講話改成口型一致的西班牙語(yǔ)。

網(wǎng)友吐槽

最后，“老規(guī)矩”，谷歌沒有發(fā)布模型，現(xiàn)在能看的只有更多效果還有論文。

嗯，吐槽也是不少的：

畫質(zhì)模型、口型抽風(fēng)對(duì)不上、看起來還是很機(jī)器人等等。

因此，有人毫不猶豫打上差評(píng)：

這就是谷歌的水準(zhǔn)嗎？

有點(diǎn)對(duì)不起“VLOGGER”這個(gè)名字了。

——和OpenAI的Sora對(duì)比，網(wǎng)友的說法確實(shí)也不是沒有道理。。

大家覺得呢？

更多效果：https://enriccorona.github.io/vlogger/

完整論文：https://enriccorona.github.io/vlogger/paper.pdf

責(zé)任編輯：張燕妮來源：量子位

模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="dlvkh"><p id="dlvkh"></p></sub>