AI把特朗普變成了dancer,跟著蔡徐坤跳起了『雞你太美』
本文轉自雷鋒網(wǎng),如需轉載請至雷鋒網(wǎng)官網(wǎng)申請授權。
“好家伙!”
“現(xiàn)在的Paper也是越來越皮了”。正在開心摸魚的同事,邊說邊給我發(fā)過來一段Demo。
原來『寶藏男孩』特朗普又被玩壞了。
『被逼著』跟蔡徐坤跳起了“雞你太美”(諧音梗)。
(川寶:AI不講武德?。?/em>
跟二次元蘿莉跳起了萌系宅舞。
(川寶:給我頂小紅帽,跳的比她好[傲嬌臉])
跟印度小哥跳起了Jackson的經典舞步。
(川寶:快看我的舞姿是不是很性感?)
看完Demo,正為找不到選題瘋狂薅頭發(fā)的小編我,一時也是驚住了:好家伙!今天的選題有了!
火速讓同事把資料推給了我。
原來逼著川寶大秀舞姿的是上??萍即髮W研究團隊的最新AI,這篇AI論文名為——《Liquid Warping GAN with Attention:A Unified Frame work for Human Images Synthesis》
簡單理解就是,基于特定框架的AI,能夠完成運動仿真、外觀轉換以及新視圖合成等人體圖像處理任務。上面特朗普的舞蹈Demo是AI合成的最終演示效果。(獲取完整視頻見文末)
接下來,我們來扒一扒它背后的合成原理。
『注意型液化GAN』模型
人體圖像合成,在影視制作、游戲制作、角色動畫/轉換、虛擬服裝試穿等方面有著巨大的潛在應用。
一般來講,在給定一個源人體圖像和參考圖像下,它需要完成三項任務:
1、運動仿真:生成一個具有源人類紋理和參考人類姿勢的圖像。
2、新視圖合成:從不同視角捕捉人體新圖像并合成。
3、外觀轉換:在參照人體圖像穿著衣服時,生成保持源面部身份的人類圖像。(不同人可能穿同樣的衣服)
在處理以上任務時,現(xiàn)有方法主要采用2D關鍵點來估計人體結構。
然而,它們僅表達位置信息,無法表征人的個性化形狀并模擬肢體旋轉。對此,研究人員提出了一套全新的模型處理框架:
它包括身體網(wǎng)格恢復模塊(Body Mesh Recovery),流合成模塊(Flow Composition),以及帶有液體翹曲塊(Liquid Warping Block ,LWB) 的GAN模塊三個部分。
Isi為給定源圖像,lr為參考圖像
其中,使用3D身體網(wǎng)格恢復模塊用來解開人體姿勢和形狀,不僅可以模擬關節(jié)的位置和旋轉,還可以表征個性化的身體形狀;使用帶有液體翹曲塊(AttLWB)的GAN,保留紋理,樣式,顏色和臉部身份等源信息;將圖像和特征空間中的源信息傳播到合成參考,通過去噪卷積自動編碼器提取源特征,以很好地表征源身份。
具體方法如下:
Body Mesh Recovery:其作用是預測運動姿態(tài)(肢體旋轉)和形狀參數(shù),以及每個圖像的三維網(wǎng)格。主要使用HMR進行三維姿態(tài)和形狀估計。
Flow Composition:在已有估計基礎上,利用攝像機視圖,為每個源網(wǎng)格和參考網(wǎng)格繪制一個對應圖和一個權重索引圖。主要使用完全可微的渲染器—神經網(wǎng)格渲染器(NMR)來完成。
Attentional Liquid Warping GAN:該階段負責合成高保真的人體圖像。它需要完成:
1)合成背景圖像。
采用Three-stream的方法:包括GBG流,對被遮罩的背景圖像和在顏色信道中獲得的掩模進行級聯(lián);源標識流GSID,引導編碼器提取能夠保留源信息的特征;源標識流GT-SF,由雙線性取樣器接收扭曲前景,對應映射作為輸入,以合成最終結果。
2)基于可見部分預測不可見部分的顏色。
采用鑒別器進行識別,它是一個全局-局部內容導向(Global-Local Contentorientation)架構,包括全局鑒別器DGlobal,身體鑒別器DBody和面部鑒別器三個部分。
3)從SMPL重建中生成衣服、頭發(fā)等像素。
這里主要采用了注意力液化塊(如下圖),它在舊有方法上解決了在人體運動仿真中,源圖像多視點輸入,以及在外觀傳遞中,服裝的不同部位來自不同的人等問題。
除此之外,為了提高泛化能力,研究人員引入了一種一次/幾次學習策略。
創(chuàng)建數(shù)據(jù)集
除了模型外,要想得到高保真輸出效果,還需要有高質量的數(shù)據(jù)集。
研究人員建立了三個測試/訓練數(shù)據(jù)集和一個評估數(shù)據(jù)集。分別為Impersonator、MotionSynthetic、FashionVideo和Youtube-Dancer-18.
Impersonator(iPER),是一個具有多種樣式、不同人物穿不同衣服的數(shù)據(jù)集。
它有206個視頻、241564幀畫面。涉及30名受試者,每個受試者穿著不同的衣服(共103件衣服。),表演一個A形視頻和一個隨機動作的視頻。
另外,iPER還包括了他們的動作、服裝、身高和體重分布等統(tǒng)計信息。
MotionSynthetic運動合成數(shù)據(jù)集,創(chuàng)建該數(shù)據(jù)集的目的是便于對人體穿著的真實感進行綜合評價,特別是通過合成的圖像數(shù)據(jù)集,可以對不同的服裝外觀進行綜合評價。
該數(shù)據(jù)集總共有120個網(wǎng)格,所有這些具有UV紋理圖像的網(wǎng)格都已在SMPL中注冊。對于每個網(wǎng)格,從Mixamo中選擇一個姿勢序列,從互聯(lián)網(wǎng)上選擇一個背景圖像?;诰W(wǎng)格、UV圖像、姿勢序列和背景圖像等信息,采用核磁共振(NMR)對合成圖像進行渲染,總共得到39529幀。
再根據(jù)不同的網(wǎng)格劃分為8:2的訓練/測試集,如下圖中的合成圖像。
FashionVideo:它包含500個訓練和100個測試視頻,其中每個女模穿著Fashion的衣服,服裝和質地千差萬別,手勢卻很少。每個視頻大約有350幀。另外,這個數(shù)據(jù)集缺乏背景的多樣性,所有的背景都是黑色的。如圖:
Youtube-Dancer-18:是作為評估數(shù)據(jù)集,對該方法的有效性和通用性進行檢驗。它全部是從YouTube平臺下來來的,總共18個,每個視頻持續(xù)4到12分鐘。(如上圖Dancer)
需要說明的是,研究人員沒有在這個數(shù)據(jù)集中訓練模型,只是對SN幀進行了個性化采樣,并直接對該數(shù)據(jù)集進行測試,以評估現(xiàn)有所有方法的泛化能力。
經過實驗分析,與現(xiàn)有其他方法,該方法在運動仿真、外觀轉換以及新視圖合成三項綜合任務上均達到了最佳性能。我們再來看一組演示Demo:
研究團隊
如之前所述,這項AI研究團隊來自上海科技大學。
高盛華,是上??萍即髮W副教授,博士生導師。也是該項研究的通訊作者。他2008年獲得中國科技大學理學學士學位(優(yōu)秀畢業(yè)生),2012年獲得南洋理工大學博士學位,2012至2014年,在新加坡高級數(shù)字科學中心擔任博士后。
他的研究興趣包括計算機視覺和機器學習。
該項研究的一作是上??萍即髮W在讀博士—Wen Liu。
他的研究方向主要集中在人體三維重建、圖像合成、運動傳遞、新視角合成、神經繪制和視頻異常檢測等方面。
其他作者還有:深圳騰訊AI實驗室的首席研究員Lin Ma,主研計算機視覺、多模式深度學習領域;上??萍即髮W碩士Zhixin Piao,主要研究課題是人體三維重建和運動傳遞;上海科技大學本科畢業(yè)生Zhi Tu,研究課題是人體運動傳遞和醫(yī)學圖像分析;英國倫敦帝國理工學院博士羅文漢,其研究方向包括計算機視覺和機器學習的幾個主題,如運動分析、圖像/視頻質量恢復、目標檢測與識別、強化學習等。
論文地址:https://arxiv.org/pdf/2011.09055v2.pdf
YouTube地址:https://www.youtube.com/watch?v=Zkrcx3_DtCw&feature=youtu.be