讓真人照片說話算什么?Adobe新研究讓插座都能開口說話
不僅讓真人圖像開口說話,油畫、素描、漫畫等都能動起來!
給出一張面部圖像和一段音頻,能做什么?AI 有辦法,比如讓圖像中的人開口說話!
此前,機(jī)器之心報道過三星人工智能研究中心和倫敦帝國理工學(xué)院提出的新型端到端系統(tǒng),僅憑一張人臉照片和一段音頻,就可以生成新的講話或唱歌視頻。
最近我們發(fā)現(xiàn)了一項(xiàng)類似的研究,馬薩諸塞大學(xué)阿默斯特分校、Adobe 研究院等機(jī)構(gòu)提出了一種叫做 MakeItTalk 的新方法,不僅能讓真人頭像說話,還可以讓卡通、油畫、素描、日漫中的人像說話。
論文鏈接:https://arxiv.org/pdf/2004.12992v1.pdf
不信就來看看效果吧!
我們首先看一看真人圖像的動態(tài)化效果。
看起來不錯,那么卡通畫呢?
給我一個插座,我能讓他成精!
還有油畫。
如果我想讓圖像中的人物搖頭晃腦高談闊論,或者保持沉靜端莊呢?
答案是也可以實(shí)現(xiàn)。
動圖 get 不到聲畫同步效果?請戳下面這個視頻:
那么,這是如何做到的呢?
之前的方法往往學(xué)習(xí)音頻和原始像素之間的直接映射進(jìn)而創(chuàng)建人物的說話動態(tài),而這項(xiàng)研究提出的方法將輸入音頻信號中的內(nèi)容和說話人身份信息分離開來:音頻內(nèi)容用來穩(wěn)健地控制嘴唇及周圍區(qū)域的運(yùn)動;說話人信息則決定面部表情的細(xì)節(jié)和人物的頭部動態(tài)。
該方法的另一個重要組件是預(yù)測能夠反映說話人動態(tài)的面部特征點(diǎn)?;谠撝虚g表征,該方法能夠?yàn)檎嫒祟^部圖像合成說話狀態(tài)視頻。此方法還可用于藝術(shù)作品、素描、2D 卡通人物、日漫、隨手涂鴉等圖像。
研究者對該方法進(jìn)行了定量和定性評估,結(jié)果表明與之前的 SOTA 方法相比,該方法能夠生成具備更高質(zhì)量的說話狀態(tài)頭部動畫。
圖 8:與 SOTA 方法的對比。
研究貢獻(xiàn)
該研究的主要貢獻(xiàn)如下:
- 提出一種基于深度學(xué)習(xí)的新架構(gòu),能夠僅基于語音信號預(yù)測面部特征點(diǎn),捕捉嘴唇、下巴、眉毛、鼻子和頭部的姿勢;
- 基于分離開的語音內(nèi)容和說話人表征生成包含面部表情和頭部動態(tài)的動畫;
- 針對矢量風(fēng)格卡通圖像和真實(shí)人物面部圖像各提出一種圖像合成方法。這些方法可以處理訓(xùn)練過程中未出現(xiàn)的新人臉圖像和卡通人物圖像;
- 提出一組定量度量指標(biāo),并對頭部動畫方法的評估進(jìn)行了用戶調(diào)研。
MakeItTalk 架構(gòu)
圖 2:MakeItTalk 方法概覽。
如上圖所示,給出一段音頻和一張面部圖像,MakeItTalk 架構(gòu)可以生成說話人的頭部狀態(tài)動畫,且聲畫同步。
在訓(xùn)練階段,研究者使用現(xiàn)成可用的人臉特征點(diǎn)檢測器對輸入圖像進(jìn)行預(yù)處理,提取面部特征點(diǎn)。然后使用輸入音頻和提取到的特征點(diǎn)直接訓(xùn)練使語音內(nèi)容動態(tài)化的基線模型。為了達(dá)到高保真動態(tài)效果,研究者嘗試將輸入音頻信號的語音內(nèi)容和說話人嵌入分離開來,進(jìn)而實(shí)現(xiàn)面部特征點(diǎn)的預(yù)測。
具體而言,該研究使用聲音轉(zhuǎn)換神經(jīng)網(wǎng)絡(luò)將語音內(nèi)容和說話人身份信息分離開。
語音內(nèi)容與說話人無關(guān),僅捕捉嘴唇及周圍區(qū)域的運(yùn)動(參見圖 2「Speech Content Animation」)。說話人的身份信息則決定了動作的細(xì)節(jié)和說話人的其余頭部動態(tài)(參加圖 2「Speaker-Aware Animation」)。
例如,不管誰說單詞「Ha!」嘴唇都會張開,這與說話人無關(guān),僅取決于說話內(nèi)容。而嘴唇的形狀和張開的幅度,以及鼻子、眼睛和頭部的動態(tài)則取決于說話人的身份。
基于語音內(nèi)容和說話人身份信息,MakeItTalk 模型為給定音頻輸出預(yù)測特征點(diǎn)序列。
圖 3:針對不同說話人身份的特征點(diǎn)預(yù)測。左:給定人臉圖像的靜態(tài)特征點(diǎn);右上:對說話時頭部動作較輕的人的預(yù)測特征點(diǎn)序列;右下:對說話時頭部動作較大的人的預(yù)測特征點(diǎn)序列。
為了生成光柵圖像,研究者開發(fā)了兩種特征點(diǎn)-圖像合成(landmark-to-image synthesis)算法。
對于非真人圖像,如油畫或矢量圖(圖 9),該研究使用基于德勞內(nèi)三角剖分(Delaunay triangulation)的簡單換臉方法。
圖 4:通過面部特征點(diǎn)和德勞內(nèi)三角剖分進(jìn)行卡通圖像換臉。左:給出的卡通圖像和面部特征點(diǎn);中:德勞內(nèi)三角剖分;右:由預(yù)測特征點(diǎn)引導(dǎo)進(jìn)行換臉后的圖像。
對于真人圖像(圖 8),則使用圖像轉(zhuǎn)換網(wǎng)絡(luò)(類似于 pix2pix)將真人面部圖像和底層特征點(diǎn)預(yù)測動態(tài)化(參見上圖 2「Image2Image Translation」)。
之后結(jié)合所有圖像幀和輸入音頻,就可以得到最終的說話狀態(tài)頭部動畫了。
下圖 6 展示了卡通圖像和真人圖像的動態(tài)化結(jié)果:
圖 6:MakeItTalk 生成的卡通動畫和真人面部動畫。該方法不僅可以合成面部表情,還可以合成不同的頭部姿勢。
MakeItTalk 有何實(shí)際用途?
合成說話狀態(tài)頭部動畫有很多應(yīng)用場景,比如配音。
下圖 7a 中,原始視頻使用語言為英語,而配音版使用的是西班牙語,那么問題來了,配音版影片中人物的面部表情和語音對不上號。使用 MakeItTalk 后可以生成語音對應(yīng)的視頻幀,實(shí)現(xiàn)聲畫同步,并保持原版視頻中的說話風(fēng)格。
另一個應(yīng)用則是目前應(yīng)用廣泛的視頻會議。
在有限帶寬視頻會議中,視頻幀無法以高保真度和高幀率進(jìn)行傳輸,這時我們就可以利用聲音信號帶動說話者的頭部動態(tài)視頻。與視覺畫面相比,聲音信號可以以較低的帶寬保存。而且,面部表情(尤其是嘴唇動作)對于溝通交流非常重要。下圖 7b 展示了,使用 MakeItTalk 僅基于音頻和初始高質(zhì)量視頻幀合成的頭部動態(tài)視頻。
圖 7:MakeItTalk 的應(yīng)用。第一行:用不同語言為視頻配音;第二行:有限帶寬視頻會議。