順著網(wǎng)線爬過來成真了,Audio2Photoreal通過對(duì)話就能生成逼真表情與動(dòng)作
當(dāng)你和朋友隔著冷冰冰的手機(jī)屏幕聊天時(shí),你得猜猜對(duì)方的語氣。當(dāng) Ta 發(fā)語音時(shí),你的腦海中還能浮現(xiàn)出 Ta 的表情甚至動(dòng)作。如果能視頻通話顯然是最好的,但在實(shí)際情況下并不能隨時(shí)撥打視頻。
如果你正在與一個(gè)遠(yuǎn)程朋友聊天,不是通過冰冷的屏幕文字,也不是缺乏表情的虛擬形象,而是一個(gè)逼真、動(dòng)態(tài)、充滿表情的數(shù)字化虛擬人。這個(gè)虛擬人不僅能夠完美地復(fù)現(xiàn)你朋友的微笑、眼神,甚至是細(xì)微的肢體動(dòng)作。你會(huì)不會(huì)感到更加的親切和溫暖呢?真是體現(xiàn)了那一句「我會(huì)順著網(wǎng)線爬過來找你的」。
這不是科幻想象,而是在實(shí)際中可以實(shí)現(xiàn)的技術(shù)了。
面部表情和肢體動(dòng)作包含的信息量很大,這會(huì)極大程度上影響內(nèi)容表達(dá)的意思。比如眼睛一直看著對(duì)方說話和眼神基本上沒有交流的說話,給人的感覺是截然不同的,這也會(huì)影響另一方對(duì)溝通內(nèi)容的理解。我們?cè)诮涣鬟^程中對(duì)這些細(xì)微的表情和動(dòng)作都有著極敏銳的捕捉能力,并用它們來形成對(duì)交談伙伴意圖、舒適度或理解程度的高級(jí)理解。因此,開發(fā)能夠捕捉這些微妙之處的高度逼真的對(duì)話虛擬人對(duì)于互動(dòng)至關(guān)重要。
為此,Meta 與加利福尼亞大學(xué)的研究者提出了一種根據(jù)兩人對(duì)話的語音音頻生成逼真虛擬人的方法。它可以合成各種高頻手勢(shì)和表情豐富的面部動(dòng)作,這些動(dòng)作與語音非常同步。對(duì)于身體和手部,他們利用了基于自回歸 VQ 的方法和擴(kuò)散模型的優(yōu)勢(shì)。對(duì)于面部,他們使用以音頻為條件的擴(kuò)散模型。然后將預(yù)測(cè)的面部、身體和手部運(yùn)動(dòng)渲染為逼真虛擬人。研究者證明了在擴(kuò)散模型上添加引導(dǎo)姿勢(shì)條件能夠生成比以前的作品更多樣化和合理的對(duì)話手勢(shì)。
- 論文地址:https://huggingface.co/papers/2401.01885
- 項(xiàng)目地址:https://people.eecs.berkeley.edu/~evonne_ng/projects/audio2photoreal/
研究者表示,他們是第一個(gè)研究如何為人際對(duì)話生成逼真面部、身體和手部動(dòng)作的團(tuán)隊(duì)。與之前的研究相比,研究者基于 VQ 和擴(kuò)散的方法合成了更逼真、更多樣的動(dòng)作。
方法概覽
研究者從記錄的多視角數(shù)據(jù)中提取潛在表情代碼來表示面部,并用運(yùn)動(dòng)骨架中的關(guān)節(jié)角度來表示身體姿勢(shì)。如圖 3 所示,本文系統(tǒng)由兩個(gè)生成模型組成,在輸入二人對(duì)話音頻的情況下,生成表情代碼和身體姿勢(shì)序列。然后,表情代碼和身體姿勢(shì)序列可以使用神經(jīng)虛擬人渲染器逐幀渲染,該渲染器可以從給定的相機(jī)視圖中生成帶有面部、身體和手部的完整紋理頭像。
需要注意的是,身體和臉部的動(dòng)態(tài)變化非常不同。首先,面部與輸入音頻的相關(guān)性很強(qiáng),尤其是嘴唇的運(yùn)動(dòng),而身體與語音的相關(guān)性較弱。這就導(dǎo)致在給定的語音輸入中,肢體手勢(shì)有著更加復(fù)雜的多樣性。其次,由于在兩個(gè)不同的空間中表示面部和身體,因此它們各自遵循不同的時(shí)間動(dòng)態(tài)。因此,研究者用兩個(gè)獨(dú)立的運(yùn)動(dòng)模型來模擬面部和身體。這樣,臉部模型就可以「主攻」與語音一致的臉部細(xì)節(jié),而身體模型則可以更加專注于生成多樣但合理的身體運(yùn)動(dòng)。
面部運(yùn)動(dòng)模型是一個(gè)擴(kuò)散模型,以輸入音頻和由預(yù)先訓(xùn)練的唇部回歸器生成的唇部頂點(diǎn)為條件(圖 4a)。對(duì)于肢體運(yùn)動(dòng)模型,研究者發(fā)現(xiàn)僅以音頻為條件的純擴(kuò)散模型產(chǎn)生的運(yùn)動(dòng)缺乏多樣性,而且在在時(shí)間序列上顯得不夠協(xié)調(diào)。但是,當(dāng)研究者以不同的引導(dǎo)姿勢(shì)為條件時(shí),質(zhì)量就會(huì)提高。因此,他們將身體運(yùn)動(dòng)模型分為兩部分:首先,自回歸音頻條件變換器預(yù)測(cè) 1fp 時(shí)的粗略引導(dǎo)姿勢(shì)(圖 4b),然后擴(kuò)散模型利用這些粗略引導(dǎo)姿勢(shì)來填充細(xì)粒度和高頻運(yùn)動(dòng)(圖 4c)。關(guān)于方法設(shè)置的更多細(xì)節(jié)請(qǐng)參閱原文。
實(shí)驗(yàn)及結(jié)果
研究者根據(jù)真實(shí)數(shù)據(jù)定量評(píng)估了 Audio2Photoreal 有效生成逼真對(duì)話動(dòng)作的能力。同時(shí),還進(jìn)行了感知評(píng)估,以證實(shí)定量結(jié)果,并衡量 Audio2Photoreal 在給定的對(duì)話環(huán)境中生成手勢(shì)的恰當(dāng)性。實(shí)驗(yàn)結(jié)果表明,當(dāng)手勢(shì)呈現(xiàn)在逼真的虛擬化身上而不是 3D 網(wǎng)格上時(shí),評(píng)估者對(duì)微妙手勢(shì)的感知更敏銳。
研究者將本文方法與 KNN、SHOW、LDA 這三種基線方法根據(jù)訓(xùn)練集中的隨機(jī)運(yùn)動(dòng)序列進(jìn)行了生成結(jié)果對(duì)比。并進(jìn)行了消融實(shí)驗(yàn),測(cè)試了沒有音頻或指導(dǎo)姿勢(shì)的條件下、沒有引導(dǎo)姿勢(shì)但基于音頻的條件下、沒有音頻但基于引導(dǎo)姿勢(shì)的條件下 Audio2Photoreal 每個(gè)組件的有效性。
定量結(jié)果
表 1 顯示,與之前的研究相比,本文方法在生成多樣性最高的運(yùn)動(dòng)時(shí),F(xiàn)D 分?jǐn)?shù)最低。雖然隨機(jī)具有與 GT 相匹配的良好多樣性,但隨機(jī)片段與相應(yīng)的對(duì)話動(dòng)態(tài)并不匹配,導(dǎo)致 FD_g 較高。
圖 5 展示了本文方法所生成的引導(dǎo)姿勢(shì)的多樣性。通過基于 VQ 的變換器 P 采樣,可以在相同音頻輸入的條件下生成風(fēng)格迥異的姿勢(shì)。
如圖 6 所示,擴(kuò)散模型會(huì)學(xué)習(xí)生成動(dòng)態(tài)動(dòng)作,其中的動(dòng)作會(huì)與對(duì)話音頻更加匹配。
圖 7 表現(xiàn)了 LDA 生成的運(yùn)動(dòng)缺乏活力,動(dòng)作也較少。相比之下,本文方法合成的運(yùn)動(dòng)變化與實(shí)際情況更為吻合。
此外,研究者還分析了本文方法在生成嘴唇運(yùn)動(dòng)方面的準(zhǔn)確度。如表 2 中的統(tǒng)計(jì)所示,Audio2Photoreal 顯著優(yōu)于基線方法 SHOW,以及在消融實(shí)驗(yàn)中移除預(yù)訓(xùn)練的嘴唇回歸器后的表現(xiàn)。這一設(shè)計(jì)改善了說話時(shí)嘴形的同步問題,有效避免了不說話時(shí)口部出現(xiàn)隨機(jī)張開和閉合的動(dòng)作,使得模型能夠?qū)崿F(xiàn)更出色的的嘴唇動(dòng)作重建,同時(shí)降低了面部網(wǎng)格頂點(diǎn)(網(wǎng)格 L2)的誤差。
定性評(píng)估
由于對(duì)話中手勢(shì)的連貫性難以被量化,研究者采用了定性方法做評(píng)估。他們?cè)?MTurk 進(jìn)行了兩組 A/B 測(cè)試。具體來說,他們請(qǐng)測(cè)評(píng)人員觀看本文方法與基線方法的生成結(jié)果或本文方法與真實(shí)情景的視頻對(duì),請(qǐng)他們?cè)u(píng)估哪個(gè)視頻中的運(yùn)動(dòng)看起來更合理。
如圖 8 所示,本文方法顯著優(yōu)于此前的基線方法 LDA,大約有 70% 的測(cè)評(píng)人員在網(wǎng)格和真實(shí)度方面更青睞 Audio2Photoreal。
如圖 8 頂部圖表所示,和 LDA 相比,評(píng)估人員對(duì)本文方法的評(píng)價(jià)從「略微更喜歡」轉(zhuǎn)變?yōu)椤笍?qiáng)烈喜歡」。和真實(shí)情況相比,也呈現(xiàn)同樣的評(píng)價(jià)。不過,在逼真程度方面,評(píng)估人員還是更認(rèn)可真實(shí)情況,而不是 Audio2Photoreal。
更多技術(shù)細(xì)節(jié),請(qǐng)閱讀原論文。