自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

讓真人照片說話算什么?Adobe新研究讓插座都能開口說話

新聞 開發(fā)工具
給出一張面部圖像和一段音頻,能做什么?AI 有辦法,比如讓圖像中的人開口說話!

 不僅讓真人圖像開口說話,油畫、素描、漫畫等都能動起來!

給出一張面部圖像和一段音頻,能做什么?AI 有辦法,比如讓圖像中的人開口說話!

此前,機(jī)器之心報道過三星人工智能研究中心和倫敦帝國理工學(xué)院提出的新型端到端系統(tǒng),僅憑一張人臉照片和一段音頻,就可以生成新的講話或唱歌視頻。

最近我們發(fā)現(xiàn)了一項(xiàng)類似的研究,馬薩諸塞大學(xué)阿默斯特分校、Adobe 研究院等機(jī)構(gòu)提出了一種叫做 MakeItTalk 的新方法,不僅能讓真人頭像說話,還可以讓卡通、油畫、素描、日漫中的人像說話。

 è®©çœŸäººç…§ç‰‡è¯´è¯ç®—什么?Adobe新研究让插座都能开口说话

論文鏈接:https://arxiv.org/pdf/2004.12992v1.pdf

不信就來看看效果吧!

我們首先看一看真人圖像的動態(tài)化效果。 

 看起來不錯,那么卡通畫呢?

 

給我一個插座,我能讓他成精!

让真人照片说话算什么?Adobe新研究让插座都能开口说话

還有油畫。

如果我想讓圖像中的人物搖頭晃腦高談闊論,或者保持沉靜端莊呢?

答案是也可以實(shí)現(xiàn)。

 動圖 get 不到聲畫同步效果?請戳下面這個視頻:

那么,這是如何做到的呢?

之前的方法往往學(xué)習(xí)音頻和原始像素之間的直接映射進(jìn)而創(chuàng)建人物的說話動態(tài),而這項(xiàng)研究提出的方法將輸入音頻信號中的內(nèi)容和說話人身份信息分離開來:音頻內(nèi)容用來穩(wěn)健地控制嘴唇及周圍區(qū)域的運(yùn)動;說話人信息則決定面部表情的細(xì)節(jié)和人物的頭部動態(tài)。

該方法的另一個重要組件是預(yù)測能夠反映說話人動態(tài)的面部特征點(diǎn)?;谠撝虚g表征,該方法能夠?yàn)檎嫒祟^部圖像合成說話狀態(tài)視頻。此方法還可用于藝術(shù)作品、素描、2D 卡通人物、日漫、隨手涂鴉等圖像。

研究者對該方法進(jìn)行了定量和定性評估,結(jié)果表明與之前的 SOTA 方法相比,該方法能夠生成具備更高質(zhì)量的說話狀態(tài)頭部動畫。

圖 8:與 SOTA 方法的對比。

研究貢獻(xiàn)

該研究的主要貢獻(xiàn)如下:

  • 提出一種基于深度學(xué)習(xí)的新架構(gòu),能夠僅基于語音信號預(yù)測面部特征點(diǎn),捕捉嘴唇、下巴、眉毛、鼻子和頭部的姿勢;
  • 基于分離開的語音內(nèi)容和說話人表征生成包含面部表情和頭部動態(tài)的動畫;
  • 針對矢量風(fēng)格卡通圖像和真實(shí)人物面部圖像各提出一種圖像合成方法。這些方法可以處理訓(xùn)練過程中未出現(xiàn)的新人臉圖像和卡通人物圖像;
  • 提出一組定量度量指標(biāo),并對頭部動畫方法的評估進(jìn)行了用戶調(diào)研。

MakeItTalk 架構(gòu)

圖 2:MakeItTalk 方法概覽。

如上圖所示,給出一段音頻和一張面部圖像,MakeItTalk 架構(gòu)可以生成說話人的頭部狀態(tài)動畫,且聲畫同步。

在訓(xùn)練階段,研究者使用現(xiàn)成可用的人臉特征點(diǎn)檢測器對輸入圖像進(jìn)行預(yù)處理,提取面部特征點(diǎn)。然后使用輸入音頻和提取到的特征點(diǎn)直接訓(xùn)練使語音內(nèi)容動態(tài)化的基線模型。為了達(dá)到高保真動態(tài)效果,研究者嘗試將輸入音頻信號的語音內(nèi)容和說話人嵌入分離開來,進(jìn)而實(shí)現(xiàn)面部特征點(diǎn)的預(yù)測。

具體而言,該研究使用聲音轉(zhuǎn)換神經(jīng)網(wǎng)絡(luò)將語音內(nèi)容和說話人身份信息分離開。

語音內(nèi)容與說話人無關(guān),僅捕捉嘴唇及周圍區(qū)域的運(yùn)動(參見圖 2「Speech Content Animation」)。說話人的身份信息則決定了動作的細(xì)節(jié)和說話人的其余頭部動態(tài)(參加圖 2「Speaker-Aware Animation」)。

例如,不管誰說單詞「Ha!」嘴唇都會張開,這與說話人無關(guān),僅取決于說話內(nèi)容。而嘴唇的形狀和張開的幅度,以及鼻子、眼睛和頭部的動態(tài)則取決于說話人的身份。

基于語音內(nèi)容和說話人身份信息,MakeItTalk 模型為給定音頻輸出預(yù)測特征點(diǎn)序列。

圖 3:針對不同說話人身份的特征點(diǎn)預(yù)測。左:給定人臉圖像的靜態(tài)特征點(diǎn);右上:對說話時頭部動作較輕的人的預(yù)測特征點(diǎn)序列;右下:對說話時頭部動作較大的人的預(yù)測特征點(diǎn)序列。

為了生成光柵圖像,研究者開發(fā)了兩種特征點(diǎn)-圖像合成(landmark-to-image synthesis)算法。

對于非真人圖像,如油畫或矢量圖(圖 9),該研究使用基于德勞內(nèi)三角剖分(Delaunay triangulation)的簡單換臉方法。

圖 4:通過面部特征點(diǎn)和德勞內(nèi)三角剖分進(jìn)行卡通圖像換臉。左:給出的卡通圖像和面部特征點(diǎn);中:德勞內(nèi)三角剖分;右:由預(yù)測特征點(diǎn)引導(dǎo)進(jìn)行換臉后的圖像。

對于真人圖像(圖 8),則使用圖像轉(zhuǎn)換網(wǎng)絡(luò)(類似于 pix2pix)將真人面部圖像和底層特征點(diǎn)預(yù)測動態(tài)化(參見上圖 2「Image2Image Translation」)。

之后結(jié)合所有圖像幀和輸入音頻,就可以得到最終的說話狀態(tài)頭部動畫了。

下圖 6 展示了卡通圖像和真人圖像的動態(tài)化結(jié)果:

圖 6:MakeItTalk 生成的卡通動畫和真人面部動畫。該方法不僅可以合成面部表情,還可以合成不同的頭部姿勢。

MakeItTalk 有何實(shí)際用途?

合成說話狀態(tài)頭部動畫有很多應(yīng)用場景,比如配音。

下圖 7a 中,原始視頻使用語言為英語,而配音版使用的是西班牙語,那么問題來了,配音版影片中人物的面部表情和語音對不上號。使用 MakeItTalk 后可以生成語音對應(yīng)的視頻幀,實(shí)現(xiàn)聲畫同步,并保持原版視頻中的說話風(fēng)格。

另一個應(yīng)用則是目前應(yīng)用廣泛的視頻會議。

在有限帶寬視頻會議中,視頻幀無法以高保真度和高幀率進(jìn)行傳輸,這時我們就可以利用聲音信號帶動說話者的頭部動態(tài)視頻。與視覺畫面相比,聲音信號可以以較低的帶寬保存。而且,面部表情(尤其是嘴唇動作)對于溝通交流非常重要。下圖 7b 展示了,使用 MakeItTalk 僅基于音頻和初始高質(zhì)量視頻幀合成的頭部動態(tài)視頻。

圖 7:MakeItTalk 的應(yīng)用。第一行:用不同語言為視頻配音;第二行:有限帶寬視頻會議。

 

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2020-10-19 13:40:47

深度學(xué)習(xí)圖像人工智能

2024-05-27 01:00:00

編程Python

2022-11-01 12:30:11

機(jī)器學(xué)習(xí)解碼系統(tǒng)

2023-03-03 13:46:35

2025-04-27 09:19:20

代碼GitHubAI

2023-09-26 08:07:58

2015-07-08 09:51:20

物聯(lián)網(wǎng)

2022-11-11 10:07:45

AI技術(shù)

2023-08-24 14:00:25

AI訓(xùn)練

2011-06-14 17:27:04

QtSpeech Qt

2013-06-13 17:30:16

Camera360拍照軟件

2016-03-14 13:53:52

華為/大數(shù)據(jù)

2015-08-12 15:45:22

FusionInsig華為

2020-10-26 13:26:22

機(jī)器人掃地機(jī)器人人工智能

2014-09-30 16:24:47

大數(shù)據(jù)華為

2018-04-09 23:08:33

數(shù)據(jù)全無線校園

2014-05-27 15:14:02

廣告

2017-05-31 14:47:45

數(shù)據(jù)數(shù)據(jù)化增值

2009-04-25 09:05:42

Symbian移動OS

2025-02-26 13:45:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號