霉霉開口唱碧昂絲的歌,又是AI!口型不出戲,五官姿態(tài)也自然,復(fù)旦百度等出品|GitHub攬星1k+ 精華
一張人像、一段音頻參考,就能讓霉霉在你面前唱碧昂絲的《Halo》。
一種名為Hallo的研究火了,GitHub已攬星1k+。
話不多說(shuō),來(lái)看更多效果:
不論是說(shuō)話還是唱歌,都能和各種風(fēng)格的人像相匹配。從口型到眉毛眼睛動(dòng)作,各種五官細(xì)節(jié)都很自然。
單獨(dú)拎出不同動(dòng)作強(qiáng)度的比較,動(dòng)作幅度大也能駕馭:
單獨(dú)調(diào)整嘴唇運(yùn)動(dòng)幅度,表現(xiàn)是這樣?jì)饍旱模?/p>
有不少網(wǎng)友看過效果后,直呼這是目前最好的開源口型同步視頻生成:
這項(xiàng)工作由來(lái)自復(fù)旦大學(xué)、百度、蘇黎世聯(lián)邦理工學(xué)院和南京大學(xué)的研究人員共同完成。
團(tuán)隊(duì)提出了分層的音頻驅(qū)動(dòng)視覺合成模塊,將人臉劃分為嘴唇、表情和姿態(tài)三個(gè)區(qū)域,分別學(xué)習(xí)它們與音頻的對(duì)齊關(guān)系,再通過自適應(yīng)加權(quán)將這三個(gè)注意力模塊的輸出融合在一起,由此可以更精細(xì)地建模音視頻同步。
Hallo長(zhǎng)啥樣?
如前文所述,Hallo通過使用參考圖像、音頻序列以及可選的視覺合成權(quán)重,結(jié)合基于分層音頻驅(qū)動(dòng)視覺合成方法的擴(kuò)散模型來(lái)實(shí)現(xiàn)。
整體架構(gòu)是這樣?jì)饍旱模?/p>
參考圖像經(jīng)過一個(gè)ReferenceNet編碼全局視覺特征;人臉編碼器提取身份相關(guān)的特征;音頻編碼器將輸入語(yǔ)音轉(zhuǎn)換為與運(yùn)動(dòng)相關(guān)的特征表示;分層音頻驅(qū)動(dòng)視覺合成模塊用于在唇部、表情、姿態(tài)三個(gè)層次建立音視頻的關(guān)聯(lián);最后通過擴(kuò)散模型中的UNet完成去噪,生成視頻幀。
- 擴(kuò)散模型主干網(wǎng)絡(luò)(Diffusion Backbone)
采用Stable Diffusion 1.5作為基礎(chǔ)架構(gòu),包括三個(gè)主要部分:VQ-VAE編碼器、基于UNet的去噪模型、條件編碼模塊。與傳統(tǒng)的文本驅(qū)動(dòng)擴(kuò)散模型不同,Hallo去掉了文本條件,轉(zhuǎn)而使用音頻特征作為主要的運(yùn)動(dòng)控制條件。
- 參考圖像編碼器(ReferenceNet)
ReferenceNet用于從參考圖像中提取全局視覺特征,指導(dǎo)視頻生成過程的外觀和紋理。結(jié)構(gòu)與擴(kuò)散模型的UNet解碼器共享相同的層數(shù)和特征圖尺度,便于在去噪過程中融合參考圖像特征。在模型訓(xùn)練階段,視頻片段的第一幀作為參考圖像。
- 時(shí)序?qū)R模塊(Temporal Alignment)
Temporal Alignment用于建模連續(xù)視頻幀之間的時(shí)間依賴關(guān)系,保證生成視頻的時(shí)序連貫性。從前一推理步驟中選取一個(gè)子集(例如2幀)作為運(yùn)動(dòng)參考幀,將其與當(dāng)前步驟的latent noise在時(shí)間維度上拼接,通過自注意力機(jī)制建模幀間的關(guān)聯(lián)和變化。
此外,分層音頻驅(qū)動(dòng)視覺合成方法是整個(gè)網(wǎng)絡(luò)架構(gòu)的核心部分。
其中人臉編碼器,使用預(yù)訓(xùn)練的人臉識(shí)別模型,直接從參考圖像提取高維人臉特征向量;音頻編碼器使用wav2vec模型提取音頻特征,并通過多層感知機(jī)映射到運(yùn)動(dòng)特征空間,由此可以將語(yǔ)音轉(zhuǎn)換為與面部運(yùn)動(dòng)相關(guān)的特征表示,作為視頻生成的條件。
之后再將音頻特征分別與唇部、表情、姿態(tài)區(qū)域的視覺特征做交叉注意力,得到三個(gè)對(duì)齊后的特征表示,再通過自適應(yīng)加權(quán)融合為最終的條件表示。
該方法還可以通過調(diào)節(jié)不同區(qū)域注意力模塊的權(quán)重,來(lái)控制生成視頻在表情和姿態(tài)上的豐富程度,可適應(yīng)不同的人物面部特征。
Hallo表現(xiàn)如何?
之后研究團(tuán)隊(duì)將Hallo與SadTalker、DreamTalk、Audio2Head、AniPortrait等SOTA方法進(jìn)行定量和定性比較。
用HDTF和Bilibili、Youtube等來(lái)源的數(shù)據(jù)構(gòu)建了一個(gè)大規(guī)模人像視頻數(shù)據(jù)集,經(jīng)過清洗后用于訓(xùn)練。
評(píng)估指標(biāo)方面,采用FID、FVD評(píng)估生成視頻的真實(shí)性,Sync-C、Sync-D評(píng)估唇形同步性,E-FID評(píng)估生成人臉的保真度。
定量評(píng)估方面,在HDTF數(shù)據(jù)集上,Hallo在多個(gè)指標(biāo)上表現(xiàn)最優(yōu):
在增強(qiáng)唇部同步的同時(shí),Hallo保持了高保真視覺生成和時(shí)間一致性:
在CelebV數(shù)據(jù)集上,Hallo展示了最低的FID和FVD以及最高Sync-C:
可視化比較如下:
在自建Wild數(shù)據(jù)集上,Hallo同樣表現(xiàn)突出:
針對(duì)不同數(shù)據(jù)集的定性比較結(jié)果如下。
Hallo展示了對(duì)不同風(fēng)格人像的驅(qū)動(dòng)生成能力,體現(xiàn)了該方法的泛化和魯棒性:
同時(shí)展示了對(duì)不同音頻的響應(yīng)能力,能夠生成與音頻內(nèi)容契合的高保真視頻:
與其它方法對(duì)比,Hallo展示了更豐富自然的表情和頭部運(yùn)動(dòng):
通過特定人物數(shù)據(jù)微調(diào),展示了該方法捕獲人物特征、個(gè)性化生成的能力:
最后研究人員還進(jìn)行了消融實(shí)驗(yàn),并總結(jié)了該方法的局限性,比如在快速運(yùn)動(dòng)場(chǎng)景下時(shí)序一致性還有待提高,推理過程計(jì)算效率有待優(yōu)化等。
此外,經(jīng)作者介紹,目前Hallo僅支持固定尺寸的人像輸入。
且該方法目前也不能實(shí)現(xiàn)實(shí)時(shí)生成。
針對(duì)這項(xiàng)研究,也有網(wǎng)友提出Deepfake隱患,對(duì)此你怎么看?
本文轉(zhuǎn)自 量子位 ,作者:量子位
