自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

鬼畜配音團(tuán)隊(duì)的福音!AI自動(dòng)生成適配口型,任何語(yǔ)言都可以

新聞 人工智能
這是一個(gè)名為Wav2Lip的模型——用來(lái)生成準(zhǔn)確的唇語(yǔ)同步視頻的新方法,來(lái)自印度海德拉巴大學(xué)的新研究。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

同樣的臉,放上不同的聲音,還可以做到如此同步。

當(dāng)DeepFake口型造假,效果是這樣。

有沒(méi)有發(fā)現(xiàn)這幾個(gè)人語(yǔ)音語(yǔ)調(diào)完全相同。

閉眼一聽(tīng),完全猜不到到底是誰(shuí)?吳恩達(dá)?馬斯克?到底是誰(shuí)在說(shuō)話?

而和原有的視頻對(duì)比,面部變化也不明顯,效果非常自然。

△用YouTube知名數(shù)碼博主Linus配口型

這是一個(gè)名為Wav2Lip的模型——用來(lái)生成準(zhǔn)確的唇語(yǔ)同步視頻的新方法,來(lái)自印度海德拉巴大學(xué)的新研究。

任何人物身份,甚至包括卡通人物,任何語(yǔ)音和語(yǔ)言,都可以將口型視頻高精度同步到任何目標(biāo)語(yǔ)音。

目前該項(xiàng)目已開(kāi)源,可以去體驗(yàn)一下Demo版~只需上傳20s的視頻和音頻文件就可以一鍵生成。

鬼畜配音團(tuán)隊(duì)的福音!AI自動(dòng)生成適配口型,任何語(yǔ)言都可以

這項(xiàng)研究在Reddit上一經(jīng)發(fā)布,21小時(shí)內(nèi)就獲得200+的熱度。

鬼畜配音團(tuán)隊(duì)的福音!AI自動(dòng)生成適配口型,任何語(yǔ)言都可以

對(duì)于這項(xiàng)研究的應(yīng)用前景,作者說(shuō),可以應(yīng)用在外文在線講座、配音電影、新聞發(fā)布會(huì),讓人物和聲音的融合更加自然,還省去大量的人力物力。

嗯,胥渡吧、淮秀幫這些配音團(tuán)隊(duì)或許可以用的上!

Wav2Lip模型

現(xiàn)有的研究,主要聚焦于在靜態(tài)圖像、或是對(duì)視頻中的特定人物生成準(zhǔn)確的唇語(yǔ)動(dòng)作。

但問(wèn)題在于,無(wú)法準(zhǔn)確的對(duì)動(dòng)態(tài)圖像,比如正在說(shuō)話的人物,唇部動(dòng)作進(jìn)行變形,從而導(dǎo)致內(nèi)容與新音頻無(wú)法做到完全同步。

就像是當(dāng)你在看音畫不同步的電影時(shí),是不是很難受。

于是,研究人員找到了出現(xiàn)這一問(wèn)題的關(guān)鍵原因,并通過(guò)一個(gè)「唇語(yǔ)同步辨別器」來(lái)解決。

鬼畜配音團(tuán)隊(duì)的福音!AI自動(dòng)生成適配口型,任何語(yǔ)言都可以

具體而言,有兩個(gè)關(guān)鍵原因,現(xiàn)有研究中所使用的損失函數(shù),即L1重構(gòu)損失LipGAN中的判別器損失都不能減少錯(cuò)誤的唇語(yǔ)同步生成。

鬼畜配音團(tuán)隊(duì)的福音!AI自動(dòng)生成適配口型,任何語(yǔ)言都可以

于是,研究人員就直接通過(guò)一個(gè)預(yù)先訓(xùn)練好的判別器「well-trained lip-sync expert」,來(lái)檢測(cè)唇語(yǔ)同步的錯(cuò)誤,這一判別結(jié)果已經(jīng)相當(dāng)準(zhǔn)確。

此外,研究人員還發(fā)現(xiàn),在產(chǎn)生噪聲的面孔上進(jìn)一步微調(diào),會(huì)阻礙判別器測(cè)量唇部同步的能力,從而也會(huì)影響生成的唇形。

最后,還采用視覺(jué)質(zhì)量鑒別器來(lái)提高視覺(jué)質(zhì)量和同步精度。

[[341016]]

舉個(gè)例子,黃色和綠色框的是本次提出的模型,紅色框?yàn)楝F(xiàn)有的最佳方法,文字是他們正在說(shuō)的語(yǔ)句。

可以看到模型產(chǎn)生的唇形比現(xiàn)有的唇形更加準(zhǔn)確、自然。

模型訓(xùn)練結(jié)果

鬼畜配音團(tuán)隊(duì)的福音!AI自動(dòng)生成適配口型,任何語(yǔ)言都可以

在模型訓(xùn)練階段,作者提出了兩個(gè)新指標(biāo), “Lip-Sync Error-Distance”(越低越好)和 “Lip-Sync Error-Confidence”(越高越好),這兩個(gè)指標(biāo)可以測(cè)量視頻的中的唇語(yǔ)同步精度。

結(jié)果發(fā)現(xiàn),使用Wav2Lip生成的視頻幾乎和真實(shí)的同步視頻一樣好。

需要注意的是,這個(gè)模型只在LRS2上的訓(xùn)練集上進(jìn)行了訓(xùn)練,在對(duì)其他數(shù)據(jù)集的訓(xùn)練時(shí)需要對(duì)代碼進(jìn)行少量修改。

鬼畜配音團(tuán)隊(duì)的福音!AI自動(dòng)生成適配口型,任何語(yǔ)言都可以

進(jìn)一步的,還對(duì)現(xiàn)實(shí)的三種視頻類型進(jìn)行了評(píng)估。

結(jié)果均表明,Wav2Lip模型都能產(chǎn)生高質(zhì)量、準(zhǔn)確的唇語(yǔ)同步視頻,不過(guò),在對(duì)TTS生成的語(yǔ)音進(jìn)行唇語(yǔ)同步時(shí),還有改進(jìn)的空間。

你覺(jué)得這項(xiàng)研究如何?

目前,項(xiàng)目已經(jīng)開(kāi)源,可以自行去體驗(yàn)一下Demo版哦~

再次提醒:只需上傳20s的視頻和音頻文件,就可以一鍵生成哦!

論文地址:
https://arxiv.org/abs/2008.10010
Demo演示視頻:
https://www.youtube.com/watch?v=SeFS-FhVv3g&feature=youtu.be
GitHub地址:
https://github.com/Rudrabha/Wav2Lip
Demo網(wǎng)址:

https://bhaasha.iiit.ac.in/lipsync/

 

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2013-04-08 12:41:35

JavaScriptJS

2009-07-21 09:31:00

Scala操作符

2023-06-14 17:15:41

Sniffnet開(kāi)源監(jiān)控工具

2022-03-11 11:40:26

AI數(shù)據(jù)技術(shù)

2023-04-02 13:46:26

人工智能OpenAI漏洞

2023-04-03 09:44:18

2021-03-15 21:01:05

微軟Exchange漏洞

2021-11-30 14:50:29

編譯源代碼開(kāi)源

2021-10-04 14:55:40

Windows 11Windows微軟

2022-03-31 08:15:59

遞歸代碼非遞歸

2009-11-12 09:51:11

Visual C++項(xiàng)

2014-09-24 13:04:13

微信企業(yè)號(hào)

2025-04-29 06:53:36

2023-03-20 18:34:02

營(yíng)銷大促質(zhì)量保障穩(wěn)定性

2022-03-07 10:27:03

Linux開(kāi)源社區(qū)

2011-06-17 14:36:50

Linux

2022-12-26 09:13:36

ChatGPT數(shù)據(jù)轉(zhuǎn)換器

2013-07-04 09:46:06

X Phone

2011-08-01 13:43:52

微軟數(shù)據(jù)庫(kù)MAC

2023-12-03 08:40:18

微軟模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)