自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

讓真人照片說話算什么？Adobe新研究讓插座都能開口說話

2020-05-18 15:43:40

新聞開發(fā)工具

給出一張面部圖像和一段音頻，能做什么？AI 有辦法，比如讓圖像中的人開口說話！

不僅讓真人圖像開口說話，油畫、素描、漫畫等都能動起來！

給出一張面部圖像和一段音頻，能做什么？AI 有辦法，比如讓圖像中的人開口說話！

此前，機(jī)器之心報道過三星人工智能研究中心和倫敦帝國理工學(xué)院提出的新型端到端系統(tǒng)，僅憑一張人臉照片和一段音頻，就可以生成新的講話或唱歌視頻。

最近我們發(fā)現(xiàn)了一項(xiàng)類似的研究，馬薩諸塞大學(xué)阿默斯特分校、Adobe 研究院等機(jī)構(gòu)提出了一種叫做 MakeItTalk 的新方法，不僅能讓真人頭像說話，還可以讓卡通、油畫、素描、日漫中的人像說話。

è®©çœŸäººç…§ç‰‡è¯´è¯ç®—ä»€ä¹ˆï¼ŸAdobeæ–°ç ”ç©¶è®©æ’åº§éƒ½èƒ½å¼€å£è¯´è¯

論文鏈接：https://arxiv.org/pdf/2004.12992v1.pdf

不信就來看看效果吧！

我們首先看一看真人圖像的動態(tài)化效果。

看起來不錯，那么卡通畫呢？

給我一個插座，我能讓他成精！

è®©çœŸäººç…§ç‰‡è¯´è¯ç®—ä»€ä¹ˆï¼ŸAdobeæ–°ç ”ç©¶è®©æ’åº§éƒ½èƒ½å¼€å£è¯´è¯

還有油畫。

如果我想讓圖像中的人物搖頭晃腦高談闊論，或者保持沉靜端莊呢？

答案是也可以實(shí)現(xiàn)。

動圖 get 不到聲畫同步效果？請戳下面這個視頻：

那么，這是如何做到的呢？

之前的方法往往學(xué)習(xí)音頻和原始像素之間的直接映射進(jìn)而創(chuàng)建人物的說話動態(tài)，而這項(xiàng)研究提出的方法將輸入音頻信號中的內(nèi)容和說話人身份信息分離開來：音頻內(nèi)容用來穩(wěn)健地控制嘴唇及周圍區(qū)域的運(yùn)動；說話人信息則決定面部表情的細(xì)節(jié)和人物的頭部動態(tài)。

該方法的另一個重要組件是預(yù)測能夠反映說話人動態(tài)的面部特征點(diǎn)?；谠撝虚g表征，該方法能夠?yàn)檎嫒祟^部圖像合成說話狀態(tài)視頻。此方法還可用于藝術(shù)作品、素描、2D 卡通人物、日漫、隨手涂鴉等圖像。

研究者對該方法進(jìn)行了定量和定性評估，結(jié)果表明與之前的 SOTA 方法相比，該方法能夠生成具備更高質(zhì)量的說話狀態(tài)頭部動畫。

圖 8：與 SOTA 方法的對比。

研究貢獻(xiàn)

該研究的主要貢獻(xiàn)如下：

提出一種基于深度學(xué)習(xí)的新架構(gòu)，能夠僅基于語音信號預(yù)測面部特征點(diǎn)，捕捉嘴唇、下巴、眉毛、鼻子和頭部的姿勢；
基于分離開的語音內(nèi)容和說話人表征生成包含面部表情和頭部動態(tài)的動畫；
針對矢量風(fēng)格卡通圖像和真實(shí)人物面部圖像各提出一種圖像合成方法。這些方法可以處理訓(xùn)練過程中未出現(xiàn)的新人臉圖像和卡通人物圖像；
提出一組定量度量指標(biāo)，并對頭部動畫方法的評估進(jìn)行了用戶調(diào)研。

MakeItTalk 架構(gòu)

圖 2：MakeItTalk 方法概覽。

如上圖所示，給出一段音頻和一張面部圖像，MakeItTalk 架構(gòu)可以生成說話人的頭部狀態(tài)動畫，且聲畫同步。

在訓(xùn)練階段，研究者使用現(xiàn)成可用的人臉特征點(diǎn)檢測器對輸入圖像進(jìn)行預(yù)處理，提取面部特征點(diǎn)。然后使用輸入音頻和提取到的特征點(diǎn)直接訓(xùn)練使語音內(nèi)容動態(tài)化的基線模型。為了達(dá)到高保真動態(tài)效果，研究者嘗試將輸入音頻信號的語音內(nèi)容和說話人嵌入分離開來，進(jìn)而實(shí)現(xiàn)面部特征點(diǎn)的預(yù)測。

具體而言，該研究使用聲音轉(zhuǎn)換神經(jīng)網(wǎng)絡(luò)將語音內(nèi)容和說話人身份信息分離開。

語音內(nèi)容與說話人無關(guān)，僅捕捉嘴唇及周圍區(qū)域的運(yùn)動（參見圖 2「Speech Content Animation」）。說話人的身份信息則決定了動作的細(xì)節(jié)和說話人的其余頭部動態(tài)（參加圖 2「Speaker-Aware Animation」）。

例如，不管誰說單詞「Ha!」嘴唇都會張開，這與說話人無關(guān)，僅取決于說話內(nèi)容。而嘴唇的形狀和張開的幅度，以及鼻子、眼睛和頭部的動態(tài)則取決于說話人的身份。

基于語音內(nèi)容和說話人身份信息，MakeItTalk 模型為給定音頻輸出預(yù)測特征點(diǎn)序列。

圖 3：針對不同說話人身份的特征點(diǎn)預(yù)測。左：給定人臉圖像的靜態(tài)特征點(diǎn)；右上：對說話時頭部動作較輕的人的預(yù)測特征點(diǎn)序列；右下：對說話時頭部動作較大的人的預(yù)測特征點(diǎn)序列。

為了生成光柵圖像，研究者開發(fā)了兩種特征點(diǎn)-圖像合成（landmark-to-image synthesis）算法。

對于非真人圖像，如油畫或矢量圖（圖 9），該研究使用基于德勞內(nèi)三角剖分（Delaunay triangulation）的簡單換臉方法。

圖 4：通過面部特征點(diǎn)和德勞內(nèi)三角剖分進(jìn)行卡通圖像換臉。左：給出的卡通圖像和面部特征點(diǎn)；中：德勞內(nèi)三角剖分；右：由預(yù)測特征點(diǎn)引導(dǎo)進(jìn)行換臉后的圖像。

對于真人圖像（圖 8），則使用圖像轉(zhuǎn)換網(wǎng)絡(luò)（類似于 pix2pix）將真人面部圖像和底層特征點(diǎn)預(yù)測動態(tài)化（參見上圖 2「Image2Image Translation」）。

之后結(jié)合所有圖像幀和輸入音頻，就可以得到最終的說話狀態(tài)頭部動畫了。

下圖 6 展示了卡通圖像和真人圖像的動態(tài)化結(jié)果：

圖 6：MakeItTalk 生成的卡通動畫和真人面部動畫。該方法不僅可以合成面部表情，還可以合成不同的頭部姿勢。

MakeItTalk 有何實(shí)際用途？

合成說話狀態(tài)頭部動畫有很多應(yīng)用場景，比如配音。

下圖 7a 中，原始視頻使用語言為英語，而配音版使用的是西班牙語，那么問題來了，配音版影片中人物的面部表情和語音對不上號。使用 MakeItTalk 后可以生成語音對應(yīng)的視頻幀，實(shí)現(xiàn)聲畫同步，并保持原版視頻中的說話風(fēng)格。

另一個應(yīng)用則是目前應(yīng)用廣泛的視頻會議。

在有限帶寬視頻會議中，視頻幀無法以高保真度和高幀率進(jìn)行傳輸，這時我們就可以利用聲音信號帶動說話者的頭部動態(tài)視頻。與視覺畫面相比，聲音信號可以以較低的帶寬保存。而且，面部表情（尤其是嘴唇動作）對于溝通交流非常重要。下圖 7b 展示了，使用 MakeItTalk 僅基于音頻和初始高質(zhì)量視頻幀合成的頭部動態(tài)視頻。

圖 7：MakeItTalk 的應(yīng)用。第一行：用不同語言為視頻配音；第二行：有限帶寬視頻會議。

責(zé)任編輯：張燕妮來源：機(jī)器之心

Adobe iOS 工具

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="ydelb"></style>