自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

會說話的頭像!新框架LipSync3D,未來或?qū)崿F(xiàn)動態(tài)口型再同步

新聞 機器學習
谷歌聯(lián)合印度團隊開發(fā)出新的框架LipSync3D,該項目的目的是開發(fā)出經(jīng)過優(yōu)化且資源合理的方法,實現(xiàn)根據(jù)音頻創(chuàng)造「會說話的頭像」視頻。

 

谷歌人工智能研究人員和印度卡哈拉格普爾理工學院(Indian Institute of Technology Kharagpur)一起合作開發(fā)了一個新的框架,可以從音頻內(nèi)容中綜合有聲頭像。

該項目的目的是開發(fā)出經(jīng)過優(yōu)化且資源合理的方法,實現(xiàn)根據(jù)音頻創(chuàng)造「會說話的頭像」視頻,在交互式應(yīng)用程序和其他實時環(huán)境中實現(xiàn)同步口型動作的配音或機器翻譯的音頻,并添加到頭像。

會說話的頭像!新框架LipSync3D,未來或?qū)崿F(xiàn)動態(tài)口型再同步

論文地址:https://arxiv.org/pdf/2106.04185.pdf

機器學習模型LipSync3D

在這個過程中訓(xùn)練的機器學習模型LipSync3D,只需要一個目標人臉識別的視頻作為輸入數(shù)據(jù)。

數(shù)據(jù)準備管道將面部幾何的提取與輸入視頻的燈光和其他方面的評估分離開來,允許更經(jīng)濟合算和更集中的訓(xùn)練。

會說話的頭像!新框架LipSync3D,未來或?qū)崿F(xiàn)動態(tài)口型再同步

LipSync3D的兩階段工作流程。上圖是從「目標」音頻生成的動態(tài)紋理三維人臉; 下圖是將生成的網(wǎng)格插入到目標視頻中。

事實上,LipSync3D對這一領(lǐng)域研究工作最顯著的貢獻可能是其照明歸一化算法(lighting normalization algorithm),該算法將訓(xùn)練和推斷照明解耦。

會說話的頭像!新框架LipSync3D,未來或?qū)崿F(xiàn)動態(tài)口型再同步

從一般幾何解耦照明數(shù)據(jù)有助于LipSync3D在具有挑戰(zhàn)性的條件下產(chǎn)生更真實的口型變化。最近幾年的其他方法已經(jīng)將自己限制在「固定」的照明條件下,這樣就不會暴露出它們在這方面的有限。

在輸入數(shù)據(jù)幀的預(yù)處理過程中,系統(tǒng)必須識別和刪除鏡像點,因為這些鏡像點是特定于拍攝視頻光照條件的,否則會干擾重現(xiàn)過程。

會說話的頭像!新框架LipSync3D,未來或?qū)崿F(xiàn)動態(tài)口型再同步

LipSync3D,顧名思義,不僅僅是對它評估的面孔進行像素分析,而是積極地使用已確定的面部標志來生成運動的CGI風格的網(wǎng)格,以及通過傳統(tǒng)CGI管道包裹在它們周圍的「展開」(unfolded)紋理。

會說話的頭像!新框架LipSync3D,未來或?qū)崿F(xiàn)動態(tài)口型再同步

LipSync3D 中的姿勢歸一化。左邊是輸入幀和檢測特征; 中間是生成的網(wǎng)格評估的規(guī)范化頂點; 右邊是相應(yīng)的紋理圖譜,為紋理預(yù)測提供了基礎(chǔ)真實性。來源: https://arxiv.org/pdf/2106.04185.pdf

除了這種新穎的照明重現(xiàn)方法,研究人員聲稱,LipSync3D在以前的工作中提供了三個主要創(chuàng)新: 將幾何、光照、姿態(tài)和紋理分離到規(guī)范化空間中的離散數(shù)據(jù)流中; 一個易于訓(xùn)練的自回歸紋理預(yù)測模型,可以生成時間上一致的視頻合成; 以及通過人類評級和客觀度量來增加真實感。

會說話的頭像!新框架LipSync3D,未來或?qū)崿F(xiàn)動態(tài)口型再同步

分裂出的視頻面部圖像的各個方面允許在視頻合成中實現(xiàn)更大的控制。

通過分析語音的音素和其他方面,LipSync3D可以直接從音頻中推導(dǎo)出適當?shù)拇讲繋缀芜\動,并將其轉(zhuǎn)化為嘴部周圍已知的相應(yīng)肌肉姿勢。

會說話的頭像!新框架LipSync3D,未來或?qū)崿F(xiàn)動態(tài)口型再同步

這個過程使用一個聯(lián)合預(yù)測管道,其中推斷的幾何形狀和紋理在自動編碼器設(shè)置中有專門的編碼器,但與打算施加在模型上的語音共享一個音頻編碼器:

會說話的頭像!新框架LipSync3D,未來或?qū)崿F(xiàn)動態(tài)口型再同步

LipSync3D 的動作合成也助力提升程式化的CGI頭像,實際上它們只是和真實世界的圖像一樣的網(wǎng)格和紋理信息:

會說話的頭像!新框架LipSync3D,未來或?qū)崿F(xiàn)動態(tài)口型再同步

一個個性的3D頭像的嘴唇動作實時動力源揚聲器視頻。在這種情況下,最優(yōu)結(jié)果將通過個性化的預(yù)訓(xùn)練獲得。

研究人員還希望使用更加真實的頭像:

會說話的頭像!新框架LipSync3D,未來或?qū)崿F(xiàn)動態(tài)口型再同步

在 GeForce GTX 1080上使用 TensorFlow、 Python 和 C + + 的管道中,視頻的示例訓(xùn)練時間從2-5分鐘的視頻所需3-5小時不等。訓(xùn)練課程使用了一批大小為128幀超過500-1000epoch,每個epoch代表一個完整的視頻評估。

未來:動態(tài)的口型再同步

過去幾年,口型再同步適應(yīng)新的音軌已經(jīng)在計算機視覺研究中吸引了大量的關(guān)注,尤其是它還是有爭議的deepfake技術(shù)的副產(chǎn)品。

2017年,華盛頓大學展示了一項能夠通過音頻學習對口型的研究,還用當時的總統(tǒng)奧巴馬的圖片做了視頻。

會說話的頭像!新框架LipSync3D,未來或?qū)崿F(xiàn)動態(tài)口型再同步

https://grail.cs.washington.edu/projects/AudioToObama/siggraph17_obama.pdf

2018年,馬克斯·普朗克計算機科學研究所進行了另一項研究計劃,實現(xiàn)了身份 > 身份視頻轉(zhuǎn)換(identity>identity video transfer),還帶來了口型同步; 2021年5月,人工智能初創(chuàng)公司 FlawlessAI 發(fā)布了其專有的對口型同步技術(shù) TrueSync,該技術(shù)被媒體廣泛認可為跨語言的主要電影的發(fā)行改進配音技術(shù)。

當然,deepfake開源資源庫的持續(xù)發(fā)展也為面部圖像合成這一領(lǐng)域提供了另一個活躍的用戶貢獻的研究分支。

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2015-07-16 13:45:18

山寨湯姆貓源碼

2020-03-06 10:34:40

AI 數(shù)據(jù)人工智能

2022-09-15 13:10:27

機器人Ameca英國

2011-11-02 09:07:03

Outfit7會說話的朋友Talking Tom

2023-11-29 10:55:21

2012-06-29 09:29:25

明基投影機

2012-02-24 11:11:03

云存儲Win平臺

2024-12-04 16:08:12

2009-04-25 09:05:42

Symbian移動OS

2020-10-19 09:46:47

大數(shù)據(jù)可視化技術(shù)

2020-02-20 20:30:16

編程語言框架

2023-02-20 09:58:35

模型3D

2012-06-16 16:57:52

WebGL

2023-12-10 15:17:59

開源模型3D

2024-03-28 14:20:56

智慧工業(yè)

2012-11-13 10:52:15

大數(shù)據(jù)3D可視化

2010-09-01 13:59:38

2022-02-25 10:38:19

開源3D建模免費

2023-09-11 10:20:25

點贊
收藏

51CTO技術(shù)棧公眾號