自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<wbr id="lztrw"></wbr>

<sub id="lztrw"><i id="lztrw"></i></sub>

<p id="lztrw"></p>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

鬼畜配音團(tuán)隊(duì)的福音！AI自動(dòng)生成適配口型，任何語(yǔ)言都可以

作者：楊凈 2020-09-07 14:10:26

新聞人工智能

這是一個(gè)名為Wav2Lip的模型——用來(lái)生成準(zhǔn)確的唇語(yǔ)同步視頻的新方法，來(lái)自印度海德拉巴大學(xué)的新研究。

本文經(jīng)AI新媒體量子位（公眾號(hào)ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

同樣的臉，放上不同的聲音，還可以做到如此同步。

當(dāng)DeepFake口型造假，效果是這樣。

有沒(méi)有發(fā)現(xiàn)這幾個(gè)人語(yǔ)音語(yǔ)調(diào)完全相同。

閉眼一聽(tīng)，完全猜不到到底是誰(shuí)？吳恩達(dá)？馬斯克？到底是誰(shuí)在說(shuō)話？

而和原有的視頻對(duì)比，面部變化也不明顯，效果非常自然。

△用YouTube知名數(shù)碼博主Linus配口型

這是一個(gè)名為Wav2Lip的模型——用來(lái)生成準(zhǔn)確的唇語(yǔ)同步視頻的新方法，來(lái)自印度海德拉巴大學(xué)的新研究。

任何人物身份，甚至包括卡通人物，任何語(yǔ)音和語(yǔ)言，都可以將口型視頻高精度同步到任何目標(biāo)語(yǔ)音。

目前該項(xiàng)目已開(kāi)源，可以去體驗(yàn)一下Demo版～只需上傳20s的視頻和音頻文件就可以一鍵生成。

鬼畜配音團(tuán)隊(duì)的福音！AI自動(dòng)生成適配口型，任何語(yǔ)言都可以

這項(xiàng)研究在Reddit上一經(jīng)發(fā)布，21小時(shí)內(nèi)就獲得200+的熱度。

鬼畜配音團(tuán)隊(duì)的福音！AI自動(dòng)生成適配口型，任何語(yǔ)言都可以

對(duì)于這項(xiàng)研究的應(yīng)用前景，作者說(shuō)，可以應(yīng)用在外文在線講座、配音電影、新聞發(fā)布會(huì)，讓人物和聲音的融合更加自然，還省去大量的人力物力。

嗯，胥渡吧、淮秀幫這些配音團(tuán)隊(duì)或許可以用的上！

Wav2Lip模型

現(xiàn)有的研究，主要聚焦于在靜態(tài)圖像、或是對(duì)視頻中的特定人物生成準(zhǔn)確的唇語(yǔ)動(dòng)作。

但問(wèn)題在于，無(wú)法準(zhǔn)確的對(duì)動(dòng)態(tài)圖像，比如正在說(shuō)話的人物，唇部動(dòng)作進(jìn)行變形，從而導(dǎo)致內(nèi)容與新音頻無(wú)法做到完全同步。

就像是當(dāng)你在看音畫不同步的電影時(shí)，是不是很難受。

于是，研究人員找到了出現(xiàn)這一問(wèn)題的關(guān)鍵原因，并通過(guò)一個(gè)「唇語(yǔ)同步辨別器」來(lái)解決。

鬼畜配音團(tuán)隊(duì)的福音！AI自動(dòng)生成適配口型，任何語(yǔ)言都可以

具體而言，有兩個(gè)關(guān)鍵原因，現(xiàn)有研究中所使用的損失函數(shù)，即L1重構(gòu)損失和LipGAN中的判別器損失都不能減少錯(cuò)誤的唇語(yǔ)同步生成。

鬼畜配音團(tuán)隊(duì)的福音！AI自動(dòng)生成適配口型，任何語(yǔ)言都可以

于是，研究人員就直接通過(guò)一個(gè)預(yù)先訓(xùn)練好的判別器「well-trained lip-sync expert」，來(lái)檢測(cè)唇語(yǔ)同步的錯(cuò)誤，這一判別結(jié)果已經(jīng)相當(dāng)準(zhǔn)確。

此外，研究人員還發(fā)現(xiàn)，在產(chǎn)生噪聲的面孔上進(jìn)一步微調(diào)，會(huì)阻礙判別器測(cè)量唇部同步的能力，從而也會(huì)影響生成的唇形。

最后，還采用視覺(jué)質(zhì)量鑒別器來(lái)提高視覺(jué)質(zhì)量和同步精度。

舉個(gè)例子，黃色和綠色框的是本次提出的模型，紅色框?yàn)楝F(xiàn)有的最佳方法，文字是他們正在說(shuō)的語(yǔ)句。

可以看到模型產(chǎn)生的唇形比現(xiàn)有的唇形更加準(zhǔn)確、自然。

模型訓(xùn)練結(jié)果

鬼畜配音團(tuán)隊(duì)的福音！AI自動(dòng)生成適配口型，任何語(yǔ)言都可以

在模型訓(xùn)練階段，作者提出了兩個(gè)新指標(biāo)， “Lip-Sync Error-Distance”（越低越好）和 “Lip-Sync Error-Confidence”（越高越好），這兩個(gè)指標(biāo)可以測(cè)量視頻的中的唇語(yǔ)同步精度。

結(jié)果發(fā)現(xiàn)，使用Wav2Lip生成的視頻幾乎和真實(shí)的同步視頻一樣好。

需要注意的是，這個(gè)模型只在LRS2上的訓(xùn)練集上進(jìn)行了訓(xùn)練，在對(duì)其他數(shù)據(jù)集的訓(xùn)練時(shí)需要對(duì)代碼進(jìn)行少量修改。

鬼畜配音團(tuán)隊(duì)的福音！AI自動(dòng)生成適配口型，任何語(yǔ)言都可以

進(jìn)一步的，還對(duì)現(xiàn)實(shí)的三種視頻類型進(jìn)行了評(píng)估。

結(jié)果均表明，Wav2Lip模型都能產(chǎn)生高質(zhì)量、準(zhǔn)確的唇語(yǔ)同步視頻，不過(guò)，在對(duì)TTS生成的語(yǔ)音進(jìn)行唇語(yǔ)同步時(shí)，還有改進(jìn)的空間。

你覺(jué)得這項(xiàng)研究如何？

目前，項(xiàng)目已經(jīng)開(kāi)源，可以自行去體驗(yàn)一下Demo版哦～

再次提醒：只需上傳20s的視頻和音頻文件，就可以一鍵生成哦！

論文地址：
https://arxiv.org/abs/2008.10010
Demo演示視頻：
https://www.youtube.com/watch?v=SeFS-FhVv3g&feature=youtu.be
GitHub地址：
https://github.com/Rudrabha/Wav2Lip
Demo網(wǎng)址：

https://bhaasha.iiit.ac.in/lipsync/

責(zé)任編輯：張燕妮來(lái)源：量子位

AI 數(shù)據(jù)人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<kbd id="dw95z"></kbd>

<legend id="dw95z"><track id="dw95z"></track></legend><xmp id="dw95z"><cite id="dw95z"><rp id="dw95z"></rp></cite></xmp>